自回归模型定义,自回归模型代码

自回归语言模型(Autoregressive LM )是在ELMO/BERT出现之前，通常所说的语言模型，实际上是根据上述内容预测下一个有可能跟随的单词的模型，常用的是从左到右的语言模型任务GPT是典型的自回归语言模型。 ELMO看似利用了上述和以下内容，但本质上是自回归LM，这与模型具体如何实现有关。 ELMO建立了2个方向(从左到右以及从右到左2个方向的语言模型)，但各自有2个方向的自回归LM，将LSTM的2个方向的隐藏节点状态连接起来表现为双向语言模型。所以其实是两种自回归语言模型的拼接，本质上仍然是自回归语言模型。

自回归语言模型既有优点也有缺点。缺点是只能使用上述或以下信息，不能同时使用上述和以下信息。当然，像ELMO这样的双向做，拼接起来看起来可以解决这个问题，但是因为融合模型太简单了，效果不是很好。其优点实际上与下游的NLP任务相关，例如文本摘要、机器翻译等的生成类NLP任务，实际上是在制作内容时，从左到右的自回归语言模型的自然匹配的过程。 Bert这样的DAE模型在生成类的NLP任务中，面临着训练过程和应用过程不一致的问题，生成类的NLP任务到目前为止还不太顺利。

自编码语言模型(Autoencoder LM )自回归语言模型可以根据上面的描述仅预测下一个单词，或者反之亦然。与此相对，Bert根据输入x随机Mask单词的一部分，训练前过程的主要任务之一是根据上下文单词预测这些被Mask的单词。如果熟悉Denoising Autoencoder的话，就会知道这确实是典型的DAE想法。 Mask中漏掉的单词是输入侧的所谓噪音。 Bert这样的预训练模式被称为DAE LM。

该DAE LM的优缺点与自回归LM相反，其优点是可以在观察预测单词上下的同时，比较自然地融合到双向语言模型中。缺点是什么？主要是在输入端引入[Mask]标签，存在预训练阶段和精细调整阶段不一致的问题。这是因为在Fine-tuning阶段看不到[Mask]标签。是DAE吗，必须引入噪音。 [Mask]标志是导入噪音的手段。这是正常的。

XLNet的出发点是能否融合自回归LM和DAE LM两者的优点。站在自回归LM的角度，是如何引入与双向语言模型等价的效应；站在DAE LM的角度，它自身嵌入到双向语言模型中，如何舍弃表面的[Mask]标记，进行预训练和精细训练当然，XLNet还阐述了Bert在Mask单词之间相互独立的问题。