近来,思必驰推出超天然语音组成技能,用户仅需输入文本立刻获得一段天然流通、声情并茂的音频,语气词、吸气声等人类特有的说话细节被逐个复原,妥妥的真人既视感。这是思必驰在语音组成范畴,获得的又一项立异打破。
作为国内专业的对话式人工智能渠道型企业,思必驰自主研发了全链路智能对话体系,包括声学信号处理、语音辨认与组成、性别/年纪/声纹辨认、天然言语了解、常识图谱、对话办理、智能交互决议计划等技能链条。
思必驰在专心发掘场景需求、不断的进步全体体系智能的一起,也重视单点技能的继续立异与打破。比如在语音组成范畴,思必驰近年来首先推出多项技能,继续给客户和终端用户带来更人性化、智能化的体会。
2022年,推出发音人音色定制渠道,支撑客户自主完结语音组成音色模型定制,下降语音组成定制门槛;针对智能客服推出高情感、高拟人度的“多情感TTS”;发布“千语千训”体系,零人工介入、自动更新模型,语音辨认体系更新频率完成了从周级到天级的跨过;2023年,发布“声响复刻”技能,仅需录制一句话即可复刻出自己的音色,支撑恣意文本的朗诵;发布天然场景数字人生成技能,个性化对话生成与语音组成模型无缝结合,构建可自在交互的个性化IP;发布支撑根据生成分散模型的零样本高质量语音修正,支撑中文及英文,可以像文本相同去修正音频......
与传统TTS生成声响的刻板、不接地气、缺少真人声响的波澜起伏等比较,超天然语音组成的最大特色是可以高度复原真人说话时的细节,特别是语气词、吸气声、中止等。
当咱们和朋友聊地利,语气词、吸气声、中止以及字音拖长等言语现象常常会呈现,这些言语现象并不是随意的,而是天然而然发生的:
语音特征离散化是指将接连的语音信号转换为一系列离散值的进程。这种离散值运用自监督(Self-Supervised Learning,SSL)模型提获得到,而自监督模型则运用海量语音数据练习得到。在语音生成的进程中,用声响模型将文本转换成语音特征,离散化处理可以更好的下降模型猜测接连语音特征的难度,使其更简单捕捉到天然和多样化语音的特色。
2022 年 4 月份,思必驰首席科学家、上海交通大学计算机系教授俞凯博士带领的研讨团队宣布了将语音特征离散化技能应用于文本到语音生成的要害作用,即《 VQTTS: High-Fidelity Text-to-Speech Synthesis with SelfSupervised VQ Acoustic Feature 》,这是业界初次将语音特征离散化应用于从文本到语音生成的建模,使语音生成作用获得了打破性发展。