微软超融合(微软鼠标)

看点： FastSpeech解决了文本语音转换中的关键问题——qjdxh谱生成的缓慢。

智东西12月12日，微软和浙江大学的研究人员近日在NeurIPS 2019会议上介绍了文本语音转换模型FastSpeech。该模型可以大大提高文本语音转换中qjdxh谱(mel-spectrogram )的生成速度，语音生成速度比基线提高38倍。

研究人员测试表明，快速语音生成质量与目前的谷歌传输器模型相当，但有效差错率仅为0%，比谷歌传输器模型基线低34%，损害了准确性以下是编译了Venturebeat相关文章的原文。

语音生成速度提高38倍

现在，更先进的文本语音转换模型可以生成听起来和人类差不多的声音。其实这些模型支持谷歌助手和亚马逊Alexa这样的语音助手。

但是，这些模型在生成语音的过程中是共通的，首先根据文本的内容生成qjdxh谱——的语音的数据表示形式，然后解码器基于qjdxh谱生成语音。在这个过程中，生成qjdxh谱的速度非常慢，也有单词重复和跳过的问题。

为了解决这些问题，微软和浙江大学的研究者开发了机器学习模式FastSpeech。他们在NeurIPS 2019会议上介绍了它，并解释为“高速、准确且文本可控的语音转换模型”。

FastSpeech具有独特的体系结构，与其他文本语音转换模型相比性能有了显着提高。 qjdxh频谱的生成速度比基线快270倍，声音生成速度快38倍。此外，还可以消除跳过单词等错误，对速度和单词间的姿势进行细微的调整。

协调语音生成中不同要素间的差异

。

快速规格的体系结构说明

FastSpeech最重要的结构特征是具有“长度调节器”。简单来说，可以调整qjdxh谱序列和音素序列之间的长度差异。

音素(phoneme )是构成声音的最小单位，音素序列的长度通常比qjdxh谱序列短，因此一个音素对应多个qjdxh谱。长度调节器根据持续时间(duration )扩展各个音素的长度，以使整个音素序列的长度与qjdxh谱序列的长度一致的方式决定各个音素的长度。

然后，只需增减与音素一致的qjdxh谱的数量或音素的持续时间，就可以按比例调整生成声音的说话速度。

为了验证

碾压级别的准确率提升

fastspeech的有效性，研究者使用开源的LJ语音数据集进行了测试。该数据集包含13，100个英语音频剪辑(总时间为24小时)和相应的字符记录。他们将语料库随机分成12500个样本进行训练，用另外300个样本进行验证，最后用剩下的300个样本进行测试。测试期间，他们对语音质量、准确率等指标进行了一系列评价。

测试结果表明，FastSpeech的语音生成质量与谷歌的Tacotron 2文本语音转换模型基本相同。但是，在精度方面大大领先于基于转换器的模型。 “有效错误率”为0%，基线为34%。另外，也可以将生成声音的说话速度从0.5倍改变为1.5倍，不会降低准确性。

结语：AI语音生成领域迎来重大突破

通过这次FastSpeech文本语音转换模型的推出，语音生成的速度提高了38倍，在精度方面，有效错误率也下降到了0%。虽然测试有一系列的限制条件，但可以看出，微软和浙江大学的研究人员此次推出的模型，仍然在语音生成领域具有重要的意义。

AI与人机交互的重要方式之一是语音，人机语音交互已经渗透到现代生活的方方面面，因此语音生成的质量、准确率以及生成语音的可控性是该领域主要攻击的重点方向。此次语音生成技术的突破，希望更多智能的语音设备能给用户带来更好的体验。

文章来源： Venturebeat

谢谢您的阅读。关注船，带你到科学技术的最前线~