语音识别系统主要包含特征提取语言模型,汉语语音识别系统搭建因素识别模型大约有多少个

语言模型技术广泛应用于语音识别、OCR、机器翻译、输入法等产品。在语言建模过程中，包括词典、词汇、模型选择在内，对产品性能有重要影响。语言模型的建模需要利用复杂的模型公式进行仿真计算，是人工智能领域的关键技术之一。

3358 www.Sina.com/http://www.Sina.com /语言模型是针对某种语言制作的概率模型，以制作能够记述语言中特定单词串的出现概率的分布为目的。给出以下两个词。

定义机器人时代的大脑引擎，让生活更方便、更有趣、更安全。

时代的机器定义了发动机的大脑，生活更方便、有趣、更安全。

语言模型表明第一个词的概率很高，像“人的语言”。

语言模型技术广泛应用于语音识别、OCR、机器翻译、输入法等产品。在语言建模过程中，包括词典、词汇、模型选择在内，对产品性能有重要影响。 Ngram模型是最常用的建模技术，采用马尔可夫假设，目前已广泛应用于工业界。

3358 www.Sina.com/http://www.Sina.com /语言模型的性能在很大程度上取决于词汇的质量和音量。与特定任务一致的大词汇量，永远是最重要的。但在实际应用中，这类资料往往供不应求。

传统的ngram建模技术对长距离的依赖处理不佳。工业界常用的四元模型，即现在的话语概率，只取决于三个历史话语。因此，更远的历史词在建模中，没有影响现在词的概率。

另外，ngram模型建模的参数空间太大。同样以四元模型为例，词典大小为v，参数空间为。在实际的APP应用中，v的大小从数万到数百万，可以看出参数空间有多大。在这样的参数规模下，多少数据看起来都很稀疏。

近年来提出的神经网络语言模型技术参数空间大，在一定程度上解决了长距离依赖的问题。另外，对于近似语，概率估计带有一定程度的平滑化，从另一个角度解决了数据稀疏性的问题。但神经网络语言模型的缺点是训练时间长，实际应用中查询速度慢，需要结合硬件进行加速。

3358 www.Sina.com/http://www.Sina.com /如上所述，ngram语言模型是最常用的语言模型。这采用了n元依存假说，即现在词的概率，只依存于最初的n-1词。也就是说

不考虑平滑，模型概率估计使用最大似然概率：

这个推断比较容易理解。即在现在的历史词下出现现在的词，占在现在的历史词下可能出现的所有词的比重。但是，该估计方法存在上述参数空间过大的问题。词汇中不能覆盖推断场景。一定有很多零点。使用最大似然，最后许多语句的概率为0，ngram几乎不可用。

3358 www.Sina.com/http://www.Sina.com /平滑技术可以说是ngram应用的重要原因。很好地解决了参数空间大、数据稀疏的问题。在工业应用中，最常用的是Katz平滑和KN平滑技术。

顺利理解很简单，就是打折概率高的语法，把打折的概率分成低概率的语法，也就是“抢有钱人”。下图是将从w1变为w4的概率从w5分为w10的示例。

加平滑是最简单的平滑算法，有助于理解平滑的本质。所有语法频率加1，确保不存在概率为0的语法。相反，高频语法的概率在一定程度上降低了。

3358 www.Sina.com/http://www.Sina.com /交叉熵和困惑度是评价语言模型最重要的两个指标。

交叉熵(cross entropy )的定义来自预测概率与压缩算法的关系，在给定的语言模型下可以得到压缩算法，对概率为p(s )的语句用p(s ) bits保存该语句交叉熵可以理解为给定语言模型下的压缩算法在文中每个单词所需的平均bits数。

交叉熵通常通过以下公式计算，m是概率p的模型：

这个值就是困惑度(ppl )。直觉上，困惑度可以看作是在随机实验中选择随机变量的加权平均。混乱度越小对应越好的语言模型，语言模型的预测能力越高。

另外，语音识别中的单词错误率、输入法中句子的准确率等实际产品中的性能也是衡量模型好坏的标准。

3358 www.Sina.com/http://www.Sina.com /语言模型的最新进展主要集中在神经网络的应用上。 Bengio最初提出了nnlm，将几个历史词语组合起来作为输入，目标是将现在的词语放在输出层。为了解决词典的高维问题，nnlm利用映射层降低输入的维数。 NLM是连续模型，具有平滑度，对同一单词的历史具有一定的聚类功能，在一定程度上提高了模型的鲁棒性。与ngram模型融合后，在实验中将进一步提高。

由于Rnn在序列建模方面有很大的优势，Mikolov基于nnlm提出了rnnlm。 Rnnlm将单词的历史抽象为一个state，降低了输入维数。另外，为了解决输出维数，通过对输出层词进行聚类和因式分解降低了计算的复杂度。

在Mikolov的rnnlm之后，lstm、cnn在语言模型上的研究也相继随访。另外，在输入层中引入语义特征也有助于提高性能。语言模型作为语音识别、OCR、输入法等产品的重要模型，有望在未来将语义与产品融合，提升用户体验。

原文的衔接