r语言逻辑回归模型,自然语言处理transformer模型

一.统计语言模式1、什么是统计语言模式？统计语言模型是单词序列上的概率分布，对于给定长度为m的序列，可以对整个序列生成概率p(w_1，w_2，w_m )。实际上，就是想办法找到表示任意语句或序列出现的概率的概率分布。

目前，涉及自然语言处理，例如语音识别(speech recognition )、机器翻译(machine translation )、词性标注(part-of-speech tagging )、语法分析(parsing )等传统方法主要基于统计学模型，近年来，基于神经网络的语言模型也逐渐成熟。

一个语言模型通常被构建为字符串s的概率分布p[s]，这里的p[s]实际上反映了s作为一个句子出现的概率。

这里的概率是指构成字符串的这个组合，在训练数据中出现的似然性与句子是否有语法无关。假设训练数据来源于人类语言，我们认为其概率是一句话是否是人类语言的概率。

2、如何建立统计语言模型？对于由t个词依次构成的句子，p(s )实际上求出字符串的联合概率。使用贝叶斯公式，连锁分解如下。

可以看到，一个统计语言模型可以表示为给定前面的词而确定下一个词出现的条件概率。

我们在求p(s )时实际建立了模型。这里p ) *是模型的参数，如果这些参数可以求解的话，就可以很容易地得到字符串s的概率。

3、要解的问题是，假设字符串s为“i want to drink some water”，根据上面建立的模型：

问题归结于如何求解上述各概率。例如，一种直观的方法是分别计算“I want to”和“I want to drink”在词汇中出现的频率并进行除法运算。

看起来很美，但其实这里有两个问题：

)1)自由参数数)假设字符串中的文字全部来自大小为v的词典，在上述例子中需要计算所有的条件概率。对于所有的条件概率，这里的w取v个值的话，实际上这个模型的自由参数数量的顺序是v ^ 6，6是字符串的长度。

综上所述，模型的自由参数随字符串长度的增长呈指数增长，要准确估计这些参数几乎是不可能的。

)2)从数据稀疏性)上可以看出，各w取v种类的值。虽然这样构建了非常多的词对，但实际上训练数据中不会出现这么多组合，所以根据最大似然估计，最终得到的概率实际上很可能为0。

4、怎么解决？以上提出了传统统计语言模型的两个问题，后来分别介绍了N-gram语言模型、神经概率语言模型两种方法进行求解

二. N-gram语言模型1、什么是N-gram语言模型？为了解决自由参数数量过多的问题，引入了马尔可夫假说。随机单词出现的概率只与在其前面出现的有限的n个词有关。基于上述假设的统计语言模型被称为N-gram语言模型。

2、如何决定n的可取值？通常，n的值不能太大。否则，会留下自由参数过多的问题。

)1)当n=1时，即某个词的出现与其周围的词独立时，将其称为unigram，即一元语言模型。此时，自由参数的顺序为词典大小v。

)2)当n=2，即一个词的出现只涉及前面的一个词时，这样的我们称为bigram，称为二元语言模型，也称为一阶兴奋星月，此时自由参数的数量级为V^2

)3)当n=3时，即一个单词的出现只与之前的两个单词有关，称为trigram，称为三元语言模型，也称为二次兴奋的星月。在这种情况下，自由参数的数量级为V^3。

一般只取上述值。因为从上面可以看出，自由参数的数量级是n取值的指数倍。

从模型的效果来看，理论上n的值越大效果越好。但是，随着n取值，效果提高的幅度在下降。另外，参数越多，区别性越好，但同时也存在各个参数的实例越少，可靠性下降的可靠性和区别性问题。

3、建模求解N-gram语言模型与传统的统计语言模型相一致，求出所有条件概率值，简单计算n元语法在词汇中出现的频率并进行归一化。

4、平滑我们在传统的统计语言模型中提出了两个问题。自由参数数量和数据稀疏，上述N-gram只解决了第一个问题，平滑是为了解决第二个问题。

如果有训练数据中未出现的短语，频率为0，实际上出现的概率可以认为是0吗？不能明确。我们不能保证训练资料的完整性。那么，解决方法是什么？如果默认情况下每个短语出现一次，则无论短语出现的频率如何，递增1都可以解决概率为0的问题。

上述方法是加1使其平滑，也称为能干的羽毛平滑。平滑还有很多方法，这里不做介绍。

)1)加法平滑

)2) kkdsg-图灵平滑

)3) k平滑

Unigram models Unigram models是一元语法模型，是上下文相关模型。该模型只考虑当前单词自身出现的概率，不考虑当前单词的上下文环境。概率形式是

也就是说，一个句子出现的概率与文中各单词的概率积相等。

以一个文件为例，各单词的概率只取决于决定

于该单词本身在文档中的概率，而文档中所有词出现的概率和为1，每个词的概率可以用该词在文档中出现的频率来表示，如下表中

三、神经网络语言模型(Neural language models)

神经语言模型使用连续表示或词汇Embedding来进行预测。以神经网络为基础来训练模型。

在传统统计语言模型中，我们提出两个问题：自由参数数目和数据稀疏。
这里在实际上使用参数θ代替了自由参数指数级的求解，而数据稀疏问题，我们在最后使用softmax进行归一化，求解出来的概率是平滑的，所以也解决了这个问题。