首页 > 编程知识 正文

微软超融合(微软鼠标)

时间:2023-05-03 05:23:39 阅读:83479 作者:1673

看点: FastSpeech解决了文本语音转换中的关键问题——qjdxh谱生成的缓慢。

智东西12月12日,微软和浙江大学的研究人员近日在NeurIPS 2019会议上介绍了文本语音转换模型FastSpeech。 该模型可以大大提高文本语音转换中qjdxh谱(mel-spectrogram )的生成速度,语音生成速度比基线提高38倍。

研究人员测试表明,快速语音生成质量与目前的谷歌传输器模型相当,但有效差错率仅为0%,比谷歌传输器模型基线低34%,损害了准确性以下是编译了Venturebeat相关文章的原文。

语音生成速度提高38倍

现在,更先进的文本语音转换模型可以生成听起来和人类差不多的声音。 其实这些模型支持谷歌助手和亚马逊Alexa这样的语音助手。

但是,这些模型在生成语音的过程中是共通的,首先根据文本的内容生成qjdxh谱——的语音的数据表示形式,然后解码器基于qjdxh谱生成语音。 在这个过程中,生成qjdxh谱的速度非常慢,也有单词重复和跳过的问题。

为了解决这些问题,微软和浙江大学的研究者开发了机器学习模式FastSpeech。 他们在NeurIPS 2019会议上介绍了它,并解释为“高速、准确且文本可控的语音转换模型”。

FastSpeech具有独特的体系结构,与其他文本语音转换模型相比性能有了显着提高。 qjdxh频谱的生成速度比基线快270倍,声音生成速度快38倍。 此外,还可以消除跳过单词等错误,对速度和单词间的姿势进行细微的调整。

协调语音生成中不同要素间的差异

快速规格的体系结构说明

FastSpeech最重要的结构特征是具有“长度调节器”。 简单来说,可以调整qjdxh谱序列和音素序列之间的长度差异。

音素(phoneme )是构成声音的最小单位,音素序列的长度通常比qjdxh谱序列短,因此一个音素对应多个qjdxh谱。 长度调节器根据持续时间(duration )扩展各个音素的长度,以使整个音素序列的长度与qjdxh谱序列的长度一致的方式决定各个音素的长度。

然后,只需增减与音素一致的qjdxh谱的数量或音素的持续时间,就可以按比例调整生成声音的说话速度。

为了验证

碾压级别的准确率提升

fastspeech的有效性,研究者使用开源的LJ语音数据集进行了测试。 该数据集包含13,100个英语音频剪辑(总时间为24小时)和相应的字符记录。 他们将语料库随机分成12500个样本进行训练,用另外300个样本进行验证,最后用剩下的300个样本进行测试。 测试期间,他们对语音质量、准确率等指标进行了一系列评价。

测试结果表明,FastSpeech的语音生成质量与谷歌的Tacotron 2文本语音转换模型基本相同。 但是,在精度方面大大领先于基于转换器的模型。 “有效错误率”为0%,基线为34%。 另外,也可以将生成声音的说话速度从0.5倍改变为1.5倍,不会降低准确性。

结语:AI语音生成领域迎来重大突破

通过这次FastSpeech文本语音转换模型的推出,语音生成的速度提高了38倍,在精度方面,有效错误率也下降到了0%。 虽然测试有一系列的限制条件,但可以看出,微软和浙江大学的研究人员此次推出的模型,仍然在语音生成领域具有重要的意义。

AI与人机交互的重要方式之一是语音,人机语音交互已经渗透到现代生活的方方面面,因此语音生成的质量、准确率以及生成语音的可控性是该领域主要攻击的重点方向。 此次语音生成技术的突破,希望更多智能的语音设备能给用户带来更好的体验。

文章来源: Venturebeat

谢谢您的阅读。 关注船,带你到科学技术的最前线~

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。