首页 > 编程知识 正文

自回归模型定义,自回归模型代码

时间:2023-05-04 14:58:02 阅读:180210 作者:2374

自回归语言模型(Autoregressive LM )是在ELMO/BERT出现之前,通常所说的语言模型,实际上是根据上述内容预测下一个有可能跟随的单词的模型,常用的是从左到右的语言模型任务GPT是典型的自回归语言模型。 ELMO看似利用了上述和以下内容,但本质上是自回归LM,这与模型具体如何实现有关。 ELMO建立了2个方向(从左到右以及从右到左2个方向的语言模型),但各自有2个方向的自回归LM,将LSTM的2个方向的隐藏节点状态连接起来表现为双向语言模型。 所以其实是两种自回归语言模型的拼接,本质上仍然是自回归语言模型。

自回归语言模型既有优点也有缺点。 缺点是只能使用上述或以下信息,不能同时使用上述和以下信息。 当然,像ELMO这样的双向做,拼接起来看起来可以解决这个问题,但是因为融合模型太简单了,效果不是很好。 其优点实际上与下游的NLP任务相关,例如文本摘要、机器翻译等的生成类NLP任务,实际上是在制作内容时,从左到右的自回归语言模型的自然匹配的过程。 Bert这样的DAE模型在生成类的NLP任务中,面临着训练过程和应用过程不一致的问题,生成类的NLP任务到目前为止还不太顺利。

自编码语言模型(Autoencoder LM )自回归语言模型可以根据上面的描述仅预测下一个单词,或者反之亦然。 与此相对,Bert根据输入x随机Mask单词的一部分,训练前过程的主要任务之一是根据上下文单词预测这些被Mask的单词。 如果熟悉Denoising Autoencoder的话,就会知道这确实是典型的DAE想法。 Mask中漏掉的单词是输入侧的所谓噪音。 Bert这样的预训练模式被称为DAE LM。

该DAE LM的优缺点与自回归LM相反,其优点是可以在观察预测单词上下的同时,比较自然地融合到双向语言模型中。 缺点是什么? 主要是在输入端引入[Mask]标签,存在预训练阶段和精细调整阶段不一致的问题。 这是因为在Fine-tuning阶段看不到[Mask]标签。 是DAE吗,必须引入噪音。 [Mask]标志是导入噪音的手段。 这是正常的。

XLNet的出发点是能否融合自回归LM和DAE LM两者的优点。 站在自回归LM的角度,是如何引入与双向语言模型等价的效应;站在DAE LM的角度,它自身嵌入到双向语言模型中,如何舍弃表面的[Mask]标记,进行预训练和精细训练当然,XLNet还阐述了Bert在Mask单词之间相互独立的问题。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。