google语音识别开源代码(谷歌助理离线语音识别)

铜灵自我编译整理

量子出品|公众号QbitAI

每次通过语音输入完成“类型”过程，你的手机都经历了一次自动语音识别(ASR )。

这种将无处不在的语音复制为文本的技术缺乏足够大的数据集，模型的拟合很严重。因此，目前如何放大音频数据是个大问题。

谷歌大脑是最新的博客，提出了一种用ASR放大数据的新方法SpecAugment。

虽然和之前的研究画风略有不同，但这次谷歌把这个问题看作是视觉问题而不是音频问题。 SpecAugment不像传统的放大方法那样增加声音波形，而是将放大策略直接应用于声音频谱。

谷歌表示，规格授权的方法很简单，计算成本很低，不需要额外的数据。在ASR任务LibriSpeech 960h和Switchboard 300h中，这种放大方法的效果惊人。

别相信我，看看。

音频波形图

在以往的ASR任务中，一般在将训练数据输入神经网络之前，通过剪切、旋转、调音、添加噪声等方法强调输入的语音数据，然后转换为频谱等视觉表现。因此，每次迭代，都会生成新的频谱图。

在谷歌的新方法中，研究者着重于放大光谱图本身的方法，没有改造声音数据，而是直接增强了光谱图等视觉表现。

由于放大可以直接应用于神经网络的输入功能，因此可以在训练中在线执行，而不影响训练速度。

将声音数据变换为基于qkdst频率倒频谱、即声音频率非线性qkdst刻度的对数能谱的线性变换

谱仪通过时间方向的扭曲改造谱图，及时修改和屏蔽连续频率信道块和语言信道块。这种放大方式可以使神经网络更加牢固，抵抗时间方向的变形，防止频率信息和声音片段信息的消失。

下图是此扩展策略的示例。

图中的紫色区域为被遮蔽的部分

在时间方向上进行扭曲，通过外置屏蔽连续的多个时间步(垂直方向屏蔽)和qkdst频道)水平方向屏蔽)，可以有效地放大数据频谱图。

单词错误率下降5%

这个方法的效果怎么样？研究者在实验的基础上进行了一系列的实验。

研究人员在大型开源语音识别数据集LibriSpeech上进行实验，比对模型生成的文字和目标文字的差异。他们选择了端到端的谷歌语音识别神经网络框架Listen、attendandspell(las )，比较了使用SpecAugment放大数据的情况和不使用的情况下训练的网络的性能

本实验采用控制变量法，所有超参数保持不变，只改变输入网络的数据，用转录过程的单词错误率Word Error Rate、WER测量结果。

结果表明，在LibriSpeech数据集上，SpecAugment放大方法可以明显降低错误率。模型大小的差异对结果影响不大，平均单词错误率几乎下降了5%。

放大数据后的错误率(蓝色)和未放大的数据的错误率(黄色) ) ) )。

除了降低单词错误率，SpecAugment还可以有效地防止神经网络的过拟合。

训练数据、清洁数据、噪声数据的放大结果

研究人员增加了网络容量，在LibriSpeech 960h和Switchboard 300h的任务中检测模型词错误率，用SpecAugment放大数据后，发现可以得到当前的最佳结果。

传送门：

谷歌官方博客：

358 ai .谷歌博客.com/2019/04 /规格声明-新建数据声明. html

研究论文：

规格参数3360组合数据认证机构

https://arxiv.org/abs/1904.08779

结束了

认真招募

量子在招聘编辑/记者，工作地点在北京中关村。期待有才华和热情的同学参加！有关详细信息，请在量子位公众号(QbitAI )的对话界面中返回“招聘”两个字符。

量子比特QbitAI 头条号合同作者

' '跟踪AI技术和产品的新动态