ASR论文

Data Augmentation Ⅰ.借助对齐信息

1.On-the-yxdxn Aligned Data Augmentation for Sequence-to-Sequence ASR
需要word-level 的对齐信息:
(1)借助语言模型将text中某个词替换为另一个意思相近的词，该词对应的声学特征也要相应地替换
(2)随机在句子中挑一个词进行替换

这种方法可以和SpecAugment相结合，实验结果如下：

2.Semantic Mask for Transformer based End-to-End Speech Recognition
随机mask掉句子中一些token对应的特征，也可以和SpecAugment结合。

Ⅱ.不借助对齐信息

1.MIXSPEECH: DATA AUGMENTATION FOR LOW-RESOURCE AUTOMATIC SPEECH
RECOGNITION

非自回归 Ⅰ.双阶段

思路来自于双阶段的流式语音识别，训练阶段如下：

测试阶段如下：

Decoder有两个工作模式：(1)自回归（2）非自回归

Ⅱ.预训练 1.Non-autoregressive Transformer-based End-to-end ASR using BERT

模型包括两部分，encoder抽取高层次声学表征，decoder产生文本。decoder是预训练好的BERT，首先预训练encoder：

然后训练整个模型

实验结果