首页 > 编程知识 正文

口译逻辑的横向分析答案,nlp 中文意图识别

时间:2023-05-05 11:07:29 阅读:165707 作者:2092

交互系统可以分为面向任务型和面向非任务型,其中面向任务型又可以分为pipeline和end to end两种方法,其中pipeline多包含自然语言理解、交互管理和自然语言生成三个模块以前在自然语言理解的概要中简单介绍了意图识别(分类)和语义填充的概念,这次将详细介绍它们的应用和模型。

首先回顾意图识别的发展,最初的意图识别是基于规则模板的方法,但由于表达方法增加了规则模板的数量,需要较多的人力物力时间,这种方法逐渐被淘汰。 当然,还有不需要大量训练数据就能在单一领域取得良好效果的优点。

下一阶段是基于统计特征的分类,也就是传统的机器学习阶段。 这一阶段的思路是先用N-GRAM等方法对文本进行特征提取,然后用SVM和朴素贝叶斯这样的分类器进行有意分类,总体效果更好,但这些分类器无法提取深层特征。 之后,随着深度学习的发展,人们也慢慢发现使用深度学习模型的意图识别在性能上有了很大的提高,所以之后研究方向也慢慢转移到了深度学习上。

与传统的机器学习相比,深度学习最先改善的地方是单词向量。 在以往我们使用的N-GRAM模型中,在数据稀疏的同时,我认为得到的单词向量不能表示单词的多义性和单词间的联系,但是在深度学习时代,在以word2vec为代表的分散型语义表现方法中,在低维语义表现方法中除了使用稠密的向量表达词的语义信息来表示单词外,还有研究小组将HowNet等大规模语言知识库的知识引入到单词向量的学习中,进一步提高了单词的表达效果。 语向量表示效果的优化,对最终识别的效果也有了显著的提高。

从模型的角度来说,其实都是其中几个。 第一个是CNN。 得到单词向量后,利用CNN提取文本特征,从而进行意图的分类,但论文中也表示CNN只能提取意图文本的局部特征,无法保持语义的一致性。 我个人是这么理解的。 也许有些句子会通过整个句子来判断意图。 例如:“我想看看今晚去哪家餐厅吃饭,不过,还是先买机票比较重要。”在这句话里,如果只看前半部分以为句子的意图是搜索餐厅,那么看了整篇文章之后才知道意图是订机票一般的CNN中提取的特征图是针对句子的局部特征的,因为没有反映句子整体的整体特征,所以这种情况下识别的效果可能很低。

不仅是CNN,接下来是有名的RNN。 Bhargava等人通过利用RNN将语境特征也应用于意图识别,实验证明了语境信息有助于提高模型的效果,因此有时也会通过LSTM和GRU这样的模型进行意图识别。

不仅是CNN、RNN,深度学习那么多的模型都可以应用于意图识别。 老实说,我认为意图识别和普通文本分类之间似乎还没有明确的区别。 至少从模型构建的过程来看,虽说已经识别了意图,但也不需要对数据和模型进行特别的处理。

谈谈意义沟的填充吧。

一开始我把语义槽填充和属性提取混为一谈,但后来我想了想。 实际上,语义槽填充和属性提取、实体提取(命名实体识别)、关系提取一样,被认为属于信息提取的范畴。 毕竟是从文本中提取必要的信息,但根据情况不同细节也不同。 例如,在下图中可以看到语义槽和实体的区别:

请关注Boston和New York。 如果我们在进行实体抽取,他们都属于city,但是如果我们在进行机票领域的语义时隙填充,Boston属于出发地,New York属于目的地。 从某种意义上说,意义槽比实体更为多样,包含的信息更多。

但是,如上所述,语义槽填充本质上是信息提取,与命名实体识别相同,所以可以将槽填充视为系列标注问题。

最初的插槽填补也是采用基于规则的方法进行的。 研究人员观察了训练数据的文本数据,根据语言学知识,手工为每个槽构建识别模板构成模板集合。 这些模板可以基于字、词、词性、语法,需要大量人力资源,就像在得到模板集合后,设置模板的使用顺序,对输入的句子按顺序使用模板提取槽信息这样基于规则的方法但是,基于规则的方法很快就被废除了,因为它仍然不能涵盖所有情况,而且如果改变领域,就需要重新分析和构建新模板。

到了序列标注模型时期,主要思想是单词对应生成插槽标签。 虽然最常用的模型是条件随机场,但近年来随着深度学习的发展,人们开始尝试将深度学习模型应用于序列标注。 例如,蔡胜尧等人利用RNN,同时引入词性特征和命名实体特征,实现了更有效的插槽嵌入,但也有学者对RNN类模型的性能表示怀疑,因此在油箱填充问题上,目前似乎还没有找到最佳的方向。

总的来说,这里介绍的意图识别和语义鸿沟填补,虽然听起来很新鲜,但我倾向于认为是自然语言理解领域的分类问题和序列标注问题。

用github编写的自然语言处理入门教程。 包含总结的博客文章和相应的模型代码: NLPBeginner

最近开始研究对话系统,还在探索中,学习笔记也用github整理更新: HowToCreateHomunculus

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。