铜灵自我编译整理
量子出品|公众号QbitAI
每次通过语音输入完成“类型”过程,你的手机都经历了一次自动语音识别(ASR )。
这种将无处不在的语音复制为文本的技术缺乏足够大的数据集,模型的拟合很严重。 因此,目前如何放大音频数据是个大问题。
谷歌大脑是最新的博客,提出了一种用ASR放大数据的新方法SpecAugment。
虽然和之前的研究画风略有不同,但这次谷歌把这个问题看作是视觉问题而不是音频问题。 SpecAugment不像传统的放大方法那样增加声音波形,而是将放大策略直接应用于声音频谱。
谷歌表示,规格授权的方法很简单,计算成本很低,不需要额外的数据。 在ASR任务LibriSpeech 960h和Switchboard 300h中,这种放大方法的效果惊人。
别相信我,看看。
音频波形图
在以往的ASR任务中,一般在将训练数据输入神经网络之前,通过剪切、旋转、调音、添加噪声等方法强调输入的语音数据,然后转换为频谱等视觉表现。 因此,每次迭代,都会生成新的频谱图。
在谷歌的新方法中,研究者着重于放大光谱图本身的方法,没有改造声音数据,而是直接增强了光谱图等视觉表现。
由于放大可以直接应用于神经网络的输入功能,因此可以在训练中在线执行,而不影响训练速度。
将声音数据变换为基于qkdst频率倒频谱、即声音频率非线性qkdst刻度的对数能谱的线性变换
谱仪通过时间方向的扭曲改造谱图,及时修改和屏蔽连续频率信道块和语言信道块。 这种放大方式可以使神经网络更加牢固,抵抗时间方向的变形,防止频率信息和声音片段信息的消失。
下图是此扩展策略的示例。
图中的紫色区域为被遮蔽的部分
在时间方向上进行扭曲,通过外置屏蔽连续的多个时间步(垂直方向屏蔽)和qkdst频道)水平方向屏蔽),可以有效地放大数据频谱图。
单词错误率下降5%
这个方法的效果怎么样? 研究者在实验的基础上进行了一系列的实验。
研究人员在大型开源语音识别数据集LibriSpeech上进行实验,比对模型生成的文字和目标文字的差异。 他们选择了端到端的谷歌语音识别神经网络框架Listen、attendandspell(las ),比较了使用SpecAugment放大数据的情况和不使用的情况下训练的网络的性能
本实验采用控制变量法,所有超参数保持不变,只改变输入网络的数据,用转录过程的单词错误率Word Error Rate、WER测量结果。
结果表明,在LibriSpeech数据集上,SpecAugment放大方法可以明显降低错误率。 模型大小的差异对结果影响不大,平均单词错误率几乎下降了5%。
放大数据后的错误率(蓝色)和未放大的数据的错误率(黄色) ) ) )。
除了降低单词错误率,SpecAugment还可以有效地防止神经网络的过拟合。
训练数据、清洁数据、噪声数据的放大结果
研究人员增加了网络容量,在LibriSpeech 960h和Switchboard 300h的任务中检测模型词错误率,用SpecAugment放大数据后,发现可以得到当前的最佳结果。
传送门:
谷歌官方博客:
358 ai .谷歌博客.com/2019/04 /规格声明-新建数据声明. html
研究论文:
规格参数3360组合数据认证机构
https://arxiv.org/abs/1904.08779
结束了
认真招募
量子在招聘编辑/记者,工作地点在北京中关村。 期待有才华和热情的同学参加! 有关详细信息,请在量子位公众号(QbitAI )的对话界面中返回“招聘”两个字符。
量子比特QbitAI 头条号合同作者
' '跟踪AI技术和产品的新动态