< Meta翻译大模型可模仿口气语速AI再也不“莫得爱情”了_智能接待机器人_华体育app官网登录|华体会手机版

  大规模多言语模型,供给大约2秒推迟的语音和文本翻译,与离线模型精确率简直相同高。

  支撑近100种输入言语和36种输出言语的语音到语音翻译,支撑近100种输入和输出言语的自动语音辨认和语音到文本翻译。

  前两个模型的底座模型,多言语多使命,本年8月发布的第一个版别,完成跨语音和文本翻译的SOTA成果。

  这一新版别选用的是带有非自回归文本到单元解码器的新架构,可进步文本和语音输出之间的一致性。

  后者是一个用于序列到序列使命的轻量建模东西包,支撑机器翻译、语音辨认等使命,可与PyTorchECO库组合。

  此外,还包含具有非自回归文本到单元(text-to-unit)解码器的新架构UnitY2。

  这是由于,自回归模型列传模仿语音很天然,但随着序列长度的出人意料,它们的扩展性很差。

  中心算法是EMMA,一个能够智能决议何时已具有满足的信息来生成下一个语音片段或方针文本的模型。

  原理的最终一部分,首要说说Meta的模型又是怎么让翻译不机械,赋有表现力的。

  这个生成器以源语音为条件来生成波形,以此传输腔调、情感表达和声响风格质量等信息。

  此外,团队还开发了Prosody UnitY2,将它集成到SeamlessM4T v2中,让它辅导模型生成具有恰当节奏、语速和中止的单元生成。

  指的是翻译精确性的问题,在这种翻译使命中,意外的过错或错觉可能会导致两个不同言语的人产生误会。

  因而,他们提出直接在翻译生成进程中自动查验测验生成的有毒单词,确有问题时自动从头调整生成进程并运用新单词来表达。

  方法是自动在音频中嵌入人耳无法察觉的信号,用专门的检测器模型能够检测出来;经过这一个水印,咱们就能够精确追寻音频的来历。

  除此之外,这一水印还能够对立各种进犯,比方有人想经过出人意料噪音、回声或过滤某范围内的频率来修正音频、淡化水印以此来绕过检测,便是行不通的。

  除了模型、论文,Meta还同步开源了此系列翻译模型的元数据、数据和数据对齐东西。

  原标题:《Meta翻译大模型可模仿口气语速!AI再也不“莫得爱情”了|GitHub 9k标星》

  本文为汹涌号作者或组织在汹涌新闻上传并发布,仅代表该作者或组织观念,不代表汹涌新闻的观念或态度,汹涌新闻仅供给信息发布龙凤之姿。请求汹涌号请用电脑拜访。

CONTACT US
欢迎随时与我们联系