【48812】小米新一代Kaldi解读：新式主动语音辨认模型Zipformer诞生之路_智能接待机器人

【48812】小米新一代Kaldi解读：新式主动语音辨认模型Zipformer诞生之路

2024-06-02 智能接待机器人

新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队，专心于开源语音根底引擎研制，从神经网络声学编码器、丢失函数、优化器和解码器等各方面重构语音技能链路，旨在进步智能语音使命的准确率和功率。

现在，新一代 Kaldi 项目主要由四个子项目构成：中心算法库 k2、通用语音数据处理工具包 Lhotse、解决方案调集 Icefall 以及服务端引擎 Sherpa，便利开发者轻松练习、布置自己的智能语音模型。

关于降采样的 encoder stack，成对呈现的 Downsample 和 Upsample 模块担任将特征长度对称地放缩。咱们选用简直最简略的办法完成 Downsample 和 Upsample 模块。例如，当降采样率为 2 时，Downsample 学习两个标量权重，用来将相邻的两帧加权求和了；Upsample 则仅仅简略地将每一帧复制为两帧。最终，经过一个 Bypass 模块，以一种可学习的方法结合 stack 的输入和输出。

Conformer block 由四个模块组成：feed-forward、Multi-Head Self-Attention (MHSA)、convolution、feed-forward。MHSA 模块经过两个过程学习大局时域信息：依据内积核算注意力权重，以及运用算好的注意力权重会聚不同帧的信息。可是，MHSA 模块一般占有了很多的核算，因为以上两步操作的核算复杂度都是平方等级于序列长度的。因而，咱们将 MHSA 模块依据这两个过程分解为两个独立的模块：Multi-Head Attention Weight (MHAW)和Self-Attention (SA)。这样一来，咱们古玩过夜经过在一个 block 里边运用一个 MHAW 模块和两个 SA 模块，以高效的方法完成两次注意力建模。此外，咱们还提出了一个新的模块 Non-Linear Attention (NLA) ，充沛的运用现已算好的注意力权重，进行大局时域信息学习。

图 2 展现了 Zipformer block 的结构图，其深度大约是 Conformer block 的两倍。中心的思维是经过复用注意力权重来节约核算和内存。详细而言，block 输入先被送到 MHAW 模块核算注意力权重，并同享给 NLA 模块和两个 SA 模块运用。一起，block 输入也被送到 feed-forward 模块，后边接着 NLA 模块。接着是两个接连的模块组，每组包括 SA、convolution 和 feed-forward。最终，由一个 BiasNorm 模块来将 block 输出进行 normalize。除了一般的加法残差衔接，每个 Zipformer block 还运用了两个 Bypass 模型，用于结合 block 输入和中心模块的输出，别离坐落 block 的中心和尾部。

值得注意的是，咱们并没有像惯例的 Transformer 模型相同，对每个模块都运用 normalization layer 去周期性地调整激活值的规划，这得益于个人会运用的 ScaledAdam 优化器过夜为各个模型主动学习参数的 scale。

咱们还比较了 Zipformer 和其他 SOTA 模型的核算功率和内存运用。图 5 展现了不同 encoder 在单个 NVIDIA Tesla V100 GPU 上推理 30 秒长的语音 batch 所需的均匀核算时刻和峰值内存运用量，batch size 设置为 30，保证一切的模型都不会 OOM。总的来说，与其他的 SOTA 模型比较，Zipformer 在功能和功率上取得了显着更好的 trade-off。尤其是 Zipformer-L，核算速度和内存运用显着优于其他相似参数规划的模型。

咱们在 LibriSpeech 数据集进步行了一系列融化试验，验证每一个模块的有用性，试验成果如表 5 所示。

因为每个 Zipfomer block 含有两倍于 Conformer block 的模块数量，咱们将每个 Zipformer block 替换为两个 Conformer block，这导致了在 test-other 上的 WER 上升了 0.16%，而且带来更多的参数量，这表现了 Zipformer block 的结构优势。移除 NLA 或许 Bypass 模块都导致了功能直线下降。关于移除了 NLA 的模型，当咱们移除注意力同享机制，这并没有带来功能提高，反而会带来更多的参数和核算量。咱们古玩都以为在 Zipformer block 中两个注意力模块学习到的注意力权重具有高度一致性，同享注意力权重并不会有损模型功能。

如表 6 所示，咱们将 Balancer 移除去后并不会带来显着的功能改变，可是没有对激活值的规划作约束会增大模型不收敛的危险，尤其是在运用混合精度练习的时分。移除去 Whitener 导致了在 test-clean 和 test-other 两个测验集上别离下降了 0.04% 和 0.24%，这标明经过约束激活值的协方差矩阵特征值尽可能相同，有助于让提高模型功能。

现在，Zipformer 已在小米产线数据上充沛验证了其优胜功能，有用提高辨认准确率，下降服务器本钱。Zipformer 相关技能，如 ScaledAdam 等，已被用于小米大模型练习。别的，咱们的开始试验标明，Zipformer 在视觉模型上相同展现了有用性。

[上一篇] 【48812】科大讯飞请求语音辨认专利提高了语音辨认的精确度

[下一篇] 翻译最新资讯-快科技--科技改动未来