< 语音生成的“智能呈现”:10万小时数据练习亚马逊祭出10亿参数BASE TTS_华体会手机版_华体育app官网登录|华体会手机版

  伴跟着生成式深度学习模型的快速的进步,天然言语处理(NLP)和核算机视觉(CV)现已阅历了根本性的改变,从有监督练习的专门模型,改变为只需有限的清晰指令就能完结各种使命的通用模型。

  在语音处理和文本到语音(TTS)范畴,这样的改变也正在发生,模型能运用数千小时的数据,使组成成果越来越挨近类人语音。

  在最近的一项研讨中,亚马逊正式推出了 BASE TTS,将 TTS 模型的参数规划进步到了史无前例的 10 亿等级。

  BASE TTS 是一个多言语、多说话人的大型 TTS(LTTS)体系,在约 10 万小时的公共范畴语音数据进步行了练习,比此前的练习数据量最高者 VALL-E 翻了一番。受 LLM 成功经验的启示,BASE TTS 将 TTS 视为下一个 token 猜测的问题。这种办法一般与很多练习数据结合运用,以完结强壮的多言语和多说话人才干。

  1、提出了 BASE TTS,这是迄今为止最大的 TTS 模型,具有 10 亿参数,并在由 10 万小时公共范畴语音数据组成的数据集进步行了练习。在片面评价中,BASE TTS 的体现优于揭露的 LTTS 基线、展现了如何将 BASE TTS 扩展到更大的数据集和模型规划,以进步其为杂乱文本呈现恰当韵律的才干。为此,研讨者开发并供给了一个「呈现才干」测验集,可作为大规划 TTS 模型文本了解和烘托的片面评价基准。本文报告了 BASE TTS 的不同变体在该基准上的体现,成果显现,跟着数据集规划和参数量的添加,质量也在单调进步。

  3、提出了建立在 WavLM SSL 模型之上的新式离散语音标明法,旨在只捕捉语音信号的音位和韵律信息。这些标明法优于基准量化办法,虽然紧缩水平很高(仅 400 比特 / 秒),但仍能经过简略、快速和流式解码器将其解码为高质量的波形。

  与近期的语音建模作业类似,研讨者采用了依据 LLM 的办法来处理 TTS 使命。文本被输入到依据 Transformer 的自回归模型,该模型可猜测离散音频标明(称为语音编码),再经过由线性层和卷积层组成的独自练习的解码器将它们解码为波形。

  BASE TTS 规划的意图是模仿文本 token 的联合散布,然后是离散的语音标明,研讨者称之为语音编码。经过音频编解码器对语音进行离散化是规划的中心,由于这样就能直接应用为 LLM 开发的办法,而 LLM 正是 LTTS 最新研讨成果的根底。具体来说,研讨者运用具有穿插熵练习方针的解码自回归 Transformer 对语音编码进行建模。虽然简略,但这一方针能够捕捉到表达性语音的杂乱概率散布,然后缓解前期神经 TTS 体系中呈现的过度滑润问题。作为一种隐式言语模型,一旦在足够多的数据上练习出足够大的变体,BASE TTS 在韵律烘托方面也会有质的腾跃。

  离散标明法是 LLM 取得成功的根底,但在语音中辨认紧凑且信息丰厚的标明不如在文本中那么显着,此前的探究也较少。关于 BASE TTS,研讨者首要测验运用 VQ-VAE 基线 节),该基线依据主动编码器架构,经过离散瓶颈重构 mel 频谱图。VQ-VAE 已成为语音和图画表征的成功典范,尤其是作为 TTS 的建模单元。

  研讨者还介绍了一种经过依据 WavLM 的语音编码学习语音标明的新办法(第 2.2.2 节)。在这种办法中,研讨者将从 WavLM SSL 模型中提取的特征离散化,以重建 mel 频谱图。研讨者应用了额定的丢失函数来促进说话人的别离,并运用字节对编码(BPE,Byte-Pair Encoding)紧缩生成的语音代码,以削减序列长度,然后使得可运用 Transformer 对较长的音频进行建模。

  研讨者练习了一个 GPT-2 架构的自回归模型「SpeechGPT」,用于猜测以文本和参阅语音为条件的语音编码。参阅语音条件包含从同一说话人随机挑选的句子,该句子被编码为固定巨细的嵌入。参阅语音嵌入、文本和语音编码被串联成一个序列,该序列由一个依据 Transformer 的自回归模型建模。研讨者对文本和语音运用独自的方位嵌入和独自的猜测头。他们从头开始练习了自回归模型,而不对文本进行预练习。为了保存文本信息以辅导拟声,还对 SpeechGPT 进行了练习,意图是猜测输入序列文本部分的下一个 token,因而 SpeechGPT 部分是纯文本 LM。与语音丢失比较,此处对文本丢失采用了较低的权重。

  此外,研讨者指定了一个独自的语音编码到波形解码器(称为「语音编码解码器」),担任重建说话人身份和录音条件。为了使模型更具可扩展性,他们用卷积层替代了 LSTM 层,对中心标明进行解码。研讨标明,这种依据卷积的语音编码解码器核算功率高,与依据分散的基线解码器比较,整体系的组成时刻削减了 70% 以上。

  研讨者一起指出,实际上语音编码解码器的输入并不是语音编码,而是自回归 Transformer 的最终一个躲藏状况。之所以这样做,是由于此前 TortoiseTTS 办法中密布的潜在表征供给了比单一语音代码更丰厚的信息。在练习过程中,研讨者将文本和方针代码输入练习好的 SpeechGPT(参数冻住),然后依据最终的躲藏状况对解码器进行调理。输入 SpeechGPT 的最终躲藏状况有助于进步语音的分段和声学质量,但也会将解码器与特定版别的 SpeechGPT 联系起来。这使试验变得杂乱,由于它迫使两个组件总是按次序构建。这一约束需求在往后的作业中加以解决。

  研讨者探究了缩放怎么样影响模型针对具有挑战性的文本输入发生恰当的韵律和表达的才干,这与 LLM 经过数据和参数缩放「呈现」新才干的办法类似。为了验证这一假定是否相同适用于 LTTS,研讨者提出了一个评价计划来评价 TTS 中潜在的呈现才干,承认了七个具有挑战性的类别:复合名词、情感、外来词、副言语、标点符号、问题和句法杂乱性。

  首要,研讨者比较了依据主动编码器和依据 WavLM 的语音编码所到达的模型质量。

  然后,研讨者评价了对语音编码进行声学解码的两种办法:依据分散的解码器和语音编码解码器。

  在完结这些结构融化后,研讨者评价了 BASE TTS 在数据集巨细和模型参数的 3 种变体中的呈现才干,并由言语专家进行了评价。

  此外,研讨者还进行了片面的 MUSHRA 测验以衡量天然度,以及主动可懂度和说话人类似度丈量,还报告了与其他开源文本到语音模型的语音质量比较。

  为了全面测验两种语音 token 化办法的质量和通用性,研讨者对 6 位美式英语和 4 位西班牙语说话人进行了 MUSHRA 评价。就英语的均匀 MUSHRA 分数而言,依据 VQ-VAE 和 WavLM 的体系平起平坐(VQ-VAE:74.8 vs WavLM:74.7)。但是,关于西班牙语,依据 WavLM 的模型在核算学上明显优于 VQ-VAE 模型(VQ-VAE:73.3 vs WavLM:74.7)。请注意,英语数据约占数据集的 90%,而西班牙语数据仅占 2%。

  如上文所述,BASE TTS 经过提出端到端语音编码解码器,简化了依据分散的基线解码器。该办法具有流畅性,推理速度进步了 3 倍。为了承认和确保这种办法不会下降质量,研讨者对所提出的语音编码解码器与基线 位说英语的美国人和 2 位说西班牙语的人进行的 MUSHRA 评价成果:

  整体来说,BASE TTS 生成的语音最天然,与输入文本的错位最少,与参阅说话人的语音最类似,相关成果如表 6 和表 7 所示:

  语音编码解码器能够有用的进行流式处理,即以增量办法生成语音。将这一功能与自回归 SpeechGPT 相结合,该体系的首字节推迟可低至 100 毫秒 —— 只需几个解码语音代码就足以发生可懂的语音。

  这种最低推迟与依据分散的解码器形成了鲜明对比,后者需求一次性生成整个语音序列(一个或多个句子),而首字节推迟等于总生成时刻。

  此外,研讨者还观察到,与分散基线比较,语音编码解码器使整体系的核算功率进步了 3 倍。他们运行了一个基准测验,在 NVIDIA® V100 GPU 上生成 1000 个保持的时刻约为 20 秒的句子,批巨细为 1。均匀而言,运用分散解码器的十亿参数 SpeechGPT 需求 69.1 秒才干完结组成,而运用语音编码解码器的相同 SpeechGPT 只需求 17.8 秒。

CONTACT US
欢迎随时与我们联系