2017年语言模型用于改善语音识别的论文创新点总结范文,语音识别系统论文

2017_ICASSP_ACTIVE LEARNING FOR LOW-RESOURCE SPEECH RECOGNITION- IMPACT OF SELECTION SIZE AND LANGUAGE MODELING DATA

对于低资源的语音识别，作者研究了选择部分大小以及语言模型数据大小的影响。模型结构为声学模型，发音模型和语言模型。语言模型的数据越多，识别率越好。

创新点并不高。启示：如建立大数据的方言语言模型。

2017_ICASSP_EXPLOITING DIFFERENT WORD CLUSTERINGS FOR CLASS-BASED RNN LANGUAGE MODELING IN SPEECH RECOGNITION

本文通过变换不同的词聚类方法以及不同的词向量表示，然后采用贪心反向(greedy backward model)模型, 选择取不同的语言模型进行组合。组合的模型在WSJ语料库上改善了困惑度以及词错误率。

创新点在于：通过改变词聚类的方式组合语言模型。

2017_Interspeech_Investigating Bidirectional Recurrent Neural Network Language Models for Speech Recognition

本文研究了应用于语音识别的双向RNNLM，提出了一种数据平滑方法。作者在新闻播报语料库BN，会议转录语料库AMI以及低资源语料库Babel data进行了测试，发现该数据平滑方法应用在双向RNNLM中，改善了语音识别的结果。

创新点：双向语言模型以及一种数据平滑方法

2017_ASRU_Lattice rescoring strategies for long short term memory language model in speech recognition

RNNLM相对于n-元语言模型表现更好，但是计算代价太高。研究人员提出了lattice rescore方法用于集成在语音识别中。作者比较了目前存在的多种lattice rescore方法，并且提出来一些变体应用于youtube语音识别，发现相对于H元模型，提高了8%的词错误率。

创新点：提出了一种基于弧束搜索lattice rescoring算法

2017_Interspeech_Use of Global and Acoustic Features Associated with Contextual Factors to Adapt Language Models for Spontaneous Speech Recognition

作者提出使用语音中的语言特征来自适应语言模型。当我们和别人谈论时，在不同的语境下我们会使用不同的词汇以及说话风格。这表明可以通过语境因素提高语音识别的准确性。作者试图在全局的声学特征中找到与语境有关的内容，然后将其集成到RNN语言模型中。作者使用日本的口语语料库，检测了i-向量和openSMILE与语境的关系。结果表明，在情感类语音识别中，困惑度相对降低了16%, 词错误率相对降低了2.1%.

创新点：在语言模型中加入语境影响。

2018年以及2015-10161年也在本人的博客语言模型分类中。可自行查看