华为自研编程语言,tts语音合成

声明：语音合成论文优选系列主要是共享论文，共享论文不直接翻译，写的内容主要是我对论文内容的概括和个人意见。如果有转载的话，请填写来源。

欢迎来到微信公众号：低调

这周主要看看有趣的研究方向。是脑机接口上的语音合成。粗略搜索一下2020年基于脑电波声音合成的文章，有几篇文章来自德克萨斯大学奥斯汀分校脑机接口实验室。真新鲜，吃了好几次啊。我觉得脑机接口的未来还有很长的路要走。特别是EEG数据的分析和清洗，使EEG数据的noise更少。另外，人类和其他种类的EEG之间是否有某种信息关系，能否通过EEG进行万物的交流？这样就能听到动物们的声音，也能回答动物)

高级速度同步会话

本文是德克萨斯大学奥斯汀分校脑机接口研究所更新为2020.05.03的文章，主要工作是利用脑电图EEG合成语音。指向具体文章的链接

3359 arxiv.org/pdf/2004.04731.pdf

1研究背景

脑机接口的研究已经发展了很长时间，在语音方面通常采用大脑信息进行语音识别和语音合成，其中大脑信息的获取主要包括入侵式和非入侵式。入侵方式的自信获取通过手术将芯片植入大脑，可以减少很多噪声。无创信息获取是利用电子传感器从头皮获取信息，常用脑电图(EEG )，这种方式更安全、更便宜。基于EEG的语音合成主要采用EEG预测声学特性，其训练数据的获取是参与者在采用语音时，同时获取脑电图获取EEG、audio的并行数据。本文提出了基于attention的回归模型，效果优于以前的回归模型。

闲话不多说，脑机接口的语音合成非常有趣。至少可以做奇幻中的“内功传音”。想想两个人戴着脑电图采集器向对方发射，对方接收脑电波合成语音，通过播放器听到对方低声说话的场面。另外，研究头脑机器接口语音合成的更重要的一点是EEG数据，使用的语音合成的体系结构非常简单)

2详细设计

本文主要采用提醒机制优化基于EEG的语音合成，其中提醒机制主要为以下公式1￣3。让我们看看图1所示的体系结构。因为这个体系结构很简单，所以不做说明。这样的图出现在以下几篇文章中。图2显示了从EEG直接转换为作为声学特征的MFCC的两种实验方式，第二种是首先使用EEG转换为作为发音特征的articulatory，然后转换为MFCC。

3实验

本文的实验主要包括4个参与者，其中set 1、set2、set3的区别在于EEG的维度分别为30、50和93。 table1~4表示各个测试结果，其中第一个方法比第二个方法稍低() table 5表示MFCC 128为结果，图3-4表示语音重构的结果。 (很遗憾没有发出样品音，所以一听到样品音就知道了) ) ) ) )。

4总结

本文主要采用attention机制优化基于EEG的语音合成，合成的语音理解度更高。 (其实我觉得分析和清洗EEG才是未来的工作)