首页 > 编程知识 正文

google语音识别开源代码(谷歌助理离线语音识别)

时间:2023-05-04 04:10:19 阅读:91057 作者:3063

铜灵自我编译整理

量子出品|公众号QbitAI

每次通过语音输入完成“类型”过程,你的手机都经历了一次自动语音识别(ASR )。

这种将无处不在的语音复制为文本的技术缺乏足够大的数据集,模型的拟合很严重。 因此,目前如何放大音频数据是个大问题。

谷歌大脑是最新的博客,提出了一种用ASR放大数据的新方法SpecAugment。

虽然和之前的研究画风略有不同,但这次谷歌把这个问题看作是视觉问题而不是音频问题。 SpecAugment不像传统的放大方法那样增加声音波形,而是将放大策略直接应用于声音频谱。

谷歌表示,规格授权的方法很简单,计算成本很低,不需要额外的数据。 在ASR任务LibriSpeech 960h和Switchboard 300h中,这种放大方法的效果惊人。

别相信我,看看。

音频波形图

在以往的ASR任务中,一般在将训练数据输入神经网络之前,通过剪切、旋转、调音、添加噪声等方法强调输入的语音数据,然后转换为频谱等视觉表现。 因此,每次迭代,都会生成新的频谱图。

在谷歌的新方法中,研究者着重于放大光谱图本身的方法,没有改造声音数据,而是直接增强了光谱图等视觉表现。

由于放大可以直接应用于神经网络的输入功能,因此可以在训练中在线执行,而不影响训练速度。

将声音数据变换为基于qkdst频率倒频谱、即声音频率非线性qkdst刻度的对数能谱的线性变换

谱仪通过时间方向的扭曲改造谱图,及时修改和屏蔽连续频率信道块和语言信道块。 这种放大方式可以使神经网络更加牢固,抵抗时间方向的变形,防止频率信息和声音片段信息的消失。

下图是此扩展策略的示例。

图中的紫色区域为被遮蔽的部分

在时间方向上进行扭曲,通过外置屏蔽连续的多个时间步(垂直方向屏蔽)和qkdst频道)水平方向屏蔽),可以有效地放大数据频谱图。

单词错误率下降5%

这个方法的效果怎么样? 研究者在实验的基础上进行了一系列的实验。

研究人员在大型开源语音识别数据集LibriSpeech上进行实验,比对模型生成的文字和目标文字的差异。 他们选择了端到端的谷歌语音识别神经网络框架Listen、attendandspell(las ),比较了使用SpecAugment放大数据的情况和不使用的情况下训练的网络的性能

本实验采用控制变量法,所有超参数保持不变,只改变输入网络的数据,用转录过程的单词错误率Word Error Rate、WER测量结果。

结果表明,在LibriSpeech数据集上,SpecAugment放大方法可以明显降低错误率。 模型大小的差异对结果影响不大,平均单词错误率几乎下降了5%。

放大数据后的错误率(蓝色)和未放大的数据的错误率(黄色) ) ) )。

除了降低单词错误率,SpecAugment还可以有效地防止神经网络的过拟合。

训练数据、清洁数据、噪声数据的放大结果

研究人员增加了网络容量,在LibriSpeech 960h和Switchboard 300h的任务中检测模型词错误率,用SpecAugment放大数据后,发现可以得到当前的最佳结果。

传送门:

谷歌官方博客:

358 ai .谷歌博客.com/2019/04 /规格声明-新建数据声明. html

研究论文:

规格参数3360组合数据认证机构

https://arxiv.org/abs/1904.08779

结束了

认真招募

量子在招聘编辑/记者,工作地点在北京中关村。 期待有才华和热情的同学参加! 有关详细信息,请在量子位公众号(QbitAI )的对话界面中返回“招聘”两个字符。

量子比特QbitAI 头条号合同作者

' '跟踪AI技术和产品的新动态

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。