的。在当下,基于神经网络的末端到末端文本-语音合成技术发展很快,大多数模型的制备方法为:从文本分解梅尔谱(Mel-Spectrogram,即一种展出声音功率的光谱图),然后用于声码器(分析和制备语音信号的编解码器)制备语音。但是,这种制备方法不存在着一些不可避免的问题,主要还包括:速度慢:末端到末端模型一般来说以自重返方式分解梅尔谱,再行通过声码器制备语音,而一段语音的梅尔谱一般来说能到几百上千帧,造成制备速度较快;稳定性劣:序列分解的错误传播及注意力偏移不许,不会造成经常出现反复吐词或漏词现象;缺少可控性:自重返的神经网络模型自动要求一条语音的分解长度,不易控制语速或韵律中断等。
为解决问题这些问题,微软公司(亚洲)互联网工程院语音团队牵头浙江大学明确提出了一种新的机器学习模型 FastSpeech,并在论文《FastSpeech:较慢、强劲且高效率的文本-语音模型》中详尽讲解了该模型。另外,值得一提的是,该论文已被温哥华 NeurIPS 2019 会议任用。【 图片来源:论文】与其他文本-语音模型比起,FastSpeech 模型架构更为独有,且具有较佳的性能(其梅尔谱分解速度比基线慢 270 倍,语音分解速度比基线慢 38 倍)。
不仅如此,它还需要防止了单词跳过等错误,还反对细致调整语速和单词中断。更为重要的是,FastSpeech 包括长度调节器,可协商梅尔谱序列和音素序列(即感官度有所不同的声音单位)之间的差异。非常简单来讲,由于音素序列的长度总是大于梅尔谱序列长度,一个音素对应多个梅尔谱。
而长度调节器不会根据持续时间,拓展音素序列以给定梅尔谱序列长度(一个补足时长预测器组件确认一个音素的时长)。减少或增加与音素或音素持续时间给定的梅尔谱数目,可成比例地调整语音速度。
【 图片来源:论文】为检验 FastSpeech 的有效性,研究人员将其与开源的 LJ Speech 数据集展开了对比,该数据集包括 13100 个英语音频片段(相等于 24 个小时的音频)和适当的文本mRNA。在将数据集随机分为用作训练的 12500 个样本、用作检验的 300 个样本和用作测试的 300 个样本后,他们对语音质量、稳定性等展开了一系列评估。论文中,研究团队主要从语音质量(audio quality)、分解速度(inference speedup)、稳定性(robustness)和可控性(controllability)等方面评估FastSpeech 模型的性能。
研究团队回应,FastSpeech 的质量完全与谷歌的 Tacotron 2 文本-语音模型非常,在稳定性上精彩多达主流的 Transformer 模型。同时,与基线的 34% 有效地错误率比起,FastSpeech 的有效地错误率为零。(但不可否认的是,其稳定性测试只牵涉到 50 个语义简单的句子) 此外,FastSpeech 能在维持准确度的前提下,将分解的语音速度从 0.5 倍变成 1.5 倍。因此,研究团队回应,FastSpeech 兼备较慢、鲁棒、高效率等特点。
【 图片来源:论文】论文的最后,研究团队也提及,未来将把 FastSpeech 和速度更慢的声码器组合成单一模型,获取几乎末端到端的文本-语音解决方案。viaVentureBeat,(公众号:)编译器。
原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:hth·华体会-www.zheya.net