首页 > 编程知识 正文

华为自研编程语言,tts语音合成

时间:2023-05-05 12:43:48 阅读:116666 作者:4371

声明:语音合成论文优选系列主要是共享论文,共享论文不直接翻译,写的内容主要是我对论文内容的概括和个人意见。 如果有转载的话,请填写来源。

欢迎来到微信公众号:低调

这周主要看看有趣的研究方向。 是脑机接口上的语音合成。 粗略搜索一下2020年基于脑电波声音合成的文章,有几篇文章来自德克萨斯大学奥斯汀分校脑机接口实验室。 真新鲜,吃了好几次啊。 我觉得脑机接口的未来还有很长的路要走。 特别是EEG数据的分析和清洗,使EEG数据的noise更少。 另外,人类和其他种类的EEG之间是否有某种信息关系,能否通过EEG进行万物的交流? 这样就能听到动物们的声音,也能回答动物)

高级速度同步会话

本文是德克萨斯大学奥斯汀分校脑机接口研究所更新为2020.05.03的文章,主要工作是利用脑电图EEG合成语音。 指向具体文章的链接

3359 arxiv.org/pdf/2004.04731.pdf

1研究背景

脑机接口的研究已经发展了很长时间,在语音方面通常采用大脑信息进行语音识别和语音合成,其中大脑信息的获取主要包括入侵式和非入侵式。 入侵方式的自信获取通过手术将芯片植入大脑,可以减少很多噪声。 无创信息获取是利用电子传感器从头皮获取信息,常用脑电图(EEG ),这种方式更安全、更便宜。 基于EEG的语音合成主要采用EEG预测声学特性,其训练数据的获取是参与者在采用语音时,同时获取脑电图获取EEG、audio的并行数据。 本文提出了基于attention的回归模型,效果优于以前的回归模型。

闲话不多说,脑机接口的语音合成非常有趣。 至少可以做奇幻中的“内功传音”。 想想两个人戴着脑电图采集器向对方发射,对方接收脑电波合成语音,通过播放器听到对方低声说话的场面。 另外,研究头脑机器接口语音合成的更重要的一点是EEG数据,使用的语音合成的体系结构非常简单)

2详细设计

本文主要采用提醒机制优化基于EEG的语音合成,其中提醒机制主要为以下公式1 ̄3。 让我们看看图1所示的体系结构。 因为这个体系结构很简单,所以不做说明。 这样的图出现在以下几篇文章中。 图2显示了从EEG直接转换为作为声学特征的MFCC的两种实验方式,第二种是首先使用EEG转换为作为发音特征的articulatory,然后转换为MFCC。

3实验

本文的实验主要包括4个参与者,其中set 1、set2、set3的区别在于EEG的维度分别为30、50和93。 table1~4表示各个测试结果,其中第一个方法比第二个方法稍低() table 5表示MFCC 128为结果,图3-4表示语音重构的结果。 (很遗憾没有发出样品音,所以一听到样品音就知道了) ) ) ) )。

4总结

本文主要采用attention机制优化基于EEG的语音合成,合成的语音理解度更高。 (其实我觉得分析和清洗EEG才是未来的工作)

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。