< 【48812】小米新一代Kaldi解读:新式主动语音辨认 模型Zipformer诞生之路_智能接待机器人_华体育app官网登录|华体会手机版

  新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队,专心于开源语音根底引擎研制,从神经网络声学编码器、丢失函数、优化器和解码器等各方面重构语音技能链路,旨在进步智能语音使命的准确率和功率。

  现在,新一代 Kaldi 项目主要由四个子项目构成:中心算法库 k2、通用语音数据处理工具包 Lhotse、解决方案调集 Icefall 以及服务端引擎 Sherpa,便利开发者轻松练习、布置自己的智能语音模型。

  关于降采样的 encoder stack,成对呈现的 Downsample 和 Upsample 模块担任将特征长度对称地放缩。咱们选用简直最简略的办法完成 Downsample 和 Upsample 模块。例如,当降采样率为 2 时,Downsample 学习两个标量权重,用来将相邻的两帧加权求和了;Upsample 则仅仅简略地将每一帧复制为两帧。最终,经过一个 Bypass 模块,以一种可学习的方法结合 stack 的输入和输出。

  Conformer block 由四个模块组成:feed-forward、Multi-Head Self-Attention (MHSA)、convolution、feed-forward。MHSA 模块经过两个过程学习大局时域信息:依据内积核算注意力权重,以及运用算好的注意力权重会聚不同帧的信息。可是,MHSA 模块一般占有了很多的核算,因为以上两步操作的核算复杂度都是平方等级于序列长度的。因而,咱们将 MHSA 模块依据这两个过程分解为两个独立的模块:Multi-Head Attention Weight (MHAW)和Self-Attention (SA)。这样一来,咱们古玩过夜经过在一个 block 里边运用一个 MHAW 模块和两个 SA 模块,以高效的方法完成两次注意力建模。此外,咱们还提出了一个新的模块 Non-Linear Attention (NLA) ,充沛的运用现已算好的注意力权重,进行大局时域信息学习。

  图 2 展现了 Zipformer block 的结构图,其深度大约是 Conformer block 的两倍。中心的思维是经过复用注意力权重来节约核算和内存。详细而言,block 输入先被送到 MHAW 模块核算注意力权重,并同享给 NLA 模块和两个 SA 模块运用。一起,block 输入也被送到 feed-forward 模块,后边接着 NLA 模块。接着是两个接连的模块组,每组包括 SA、convolution 和 feed-forward。最终,由一个 BiasNorm 模块来将 block 输出进行 normalize。除了一般的加法残差衔接,每个 Zipformer block 还运用了两个 Bypass 模型,用于结合 block 输入和中心模块的输出,别离坐落 block 的中心和尾部。

  值得注意的是,咱们并没有像惯例的 Transformer 模型相同,对每个模块都运用 normalization layer 去周期性地调整激活值的规划,这得益于个人会运用的 ScaledAdam 优化器过夜为各个模型主动学习参数的 scale。

  咱们还比较了 Zipformer 和其他 SOTA 模型的核算功率和内存运用。图 5 展现了不同 encoder 在单个 NVIDIA Tesla V100 GPU 上推理 30 秒长的语音 batch 所需的均匀核算时刻和峰值内存运用量,batch size 设置为 30,保证一切的模型都不会 OOM。总的来说,与其他的 SOTA 模型比较,Zipformer 在功能和功率上取得了显着更好的 trade-off。尤其是 Zipformer-L,核算速度和内存运用显着优于其他相似参数规划的模型。

  咱们在 LibriSpeech 数据集进步行了一系列融化试验,验证每一个模块的有用性,试验成果如表 5 所示。

  因为每个 Zipfomer block 含有两倍于 Conformer block 的模块数量,咱们将每个 Zipformer block 替换为两个 Conformer block,这导致了在 test-other 上的 WER 上升了 0.16%,而且带来更多的参数量,这表现了 Zipformer block 的结构优势。移除 NLA 或许 Bypass 模块都导致了功能直线下降。关于移除了 NLA 的模型,当咱们移除注意力同享机制,这并没有带来功能提高,反而会带来更多的参数和核算量。咱们古玩都以为在 Zipformer block 中两个注意力模块学习到的注意力权重具有高度一致性,同享注意力权重并不会有损模型功能。

  如表 6 所示,咱们将 Balancer 移除去后并不会带来显着的功能改变,可是没有对激活值的规划作约束会增大模型不收敛的危险,尤其是在运用混合精度练习的时分。移除去 Whitener 导致了在 test-clean 和 test-other 两个测验集上别离下降了 0.04% 和 0.24%,这标明经过约束激活值的协方差矩阵特征值尽可能相同,有助于让提高模型功能。

  现在,Zipformer 已在小米产线数据上充沛验证了其优胜功能,有用提高辨认准确率,下降服务器本钱。Zipformer 相关技能,如 ScaledAdam 等,已被用于小米大模型练习。别的,咱们的开始试验标明,Zipformer 在视觉模型上相同展现了有用性。

CONTACT US
欢迎随时与我们联系