首页 > 编程知识 正文

自然语言处理综述,自然语言处理题库

时间:2023-05-03 13:08:59 阅读:142230 作者:292

NLP学习笔记(1) ——绪论和概要1 .基本概念)1)语言学)2)语音学)3)计算语言学,Computational Linguistics(4)4)自然语言理解,natural llanguage understandand naturallanguageprocessing(6)中文信息处理2.HLT的产生与发展)1)发生)2)发展3 .研究内容)4.基本问题和主要困难)1)主要困难)3)总之,NLU面临的挑战

1 .基本概念

什么是语言学,什么是语音学?

自然语言理解、自然语言处理、计算语言学,还有中文信息处理,它们有什么关系?

本节对自然语言处理的相关概念进行解释和辨析。

)1)在语言学《现代语言学词典》中,评论如下。

语言学是指对语言的科学研究

《现代汉语词典》这样说明。

语言学:研究语言的本质、结构和发展规律的科学语音和文字是语言的两种基本属性语言学,包括:

)1)历时语言学(历史语言学) )。

)2)共时语言学

(3)描述语言学

)4)比较语言学

)5)结构语言学

() (语音学的定义)语音学是研究人类发音特征,特别是语音发音特征,提出各种语音描述、分类、转录方法的科学语音学。

(1)发音语音学:研究发音器官如何产生语音

)2)声学语音学)研究口耳间传输语音的物理特性

(3)听觉语音学:研究者对耳、听觉神经、大脑语音的感知反应;(3)计算语言学、Computational Linguistics计算语言学是通过构建形式化的计算模型来分析、理解、生成自然语言的学科,是人工智能和语言学的分支学科与内容相近的自然语言处理相比,计算语言学更侧重于基础理论和方法的研究。 )自然语言理解、自然语言理解是探索人类自身语言能力和语言思维活动本质,研究模仿人类语言认知过程的自然语言处理方法和实现技术的学科。 这是人工智能的早期研究领域之一也是人工智能最重要的研究方向之一关于概念中的**“理解”**标准:

也就是说,如何判断计算机系统的智能?

有意识的个体=也就是说与人相比怎么样?

具体包括三个方面

)1)计算机系统的性能如何? )2)反应如何? )3)相互作用怎么样

也就是说:

(1) act (2) react(3)3) interact

判断和比较的方法可以通过图灵实验进行。 )自然语言处理、语言处理在自然语言处理中,是研究如何利用计算机技术处理和加工语言文本(句子、篇章、词语等)的学科,是词法、句法、语义和语用等信息的识别、分类、提取自然语言处理研究的语言,大致可以分为三个不同的语系:

(1)折射语:如英语、法语等语言,表示语言形态的变化越来越相关;

()粘着语)词内有表示越来越重要意义的附加成分,词根和词干与附加成分的结合不紧密。 例如日语、韩语、土耳其语等

)3)孤立词)又称分析词。 形态变化较少,语法关系通过语序和虚词来表示,如汉语(6)汉语信息处理是对汉语的自然语言处理技术。

现在可以回答本节开头提到的问题了。 “自然语言理解、自然语言处理、计算语言学以及中文信息处理是如何相关的? ”

关于中文信息处理与自然语言处理的关系:中文信息处理是专门针对中文的语言信息技术研究,是自然语言处理学科下的一个分支。

自然语言处理(NLP )、计算语言学(CL )、自然语言理解) NLU )的3个关系,如下图所示,相互交叉且不同,统称为http://www.Sina.com/(humanlanguaguam ) 在一些资料中,三者互相划上等号。

2.HLT的产生与发展(1)产生1946年,世界第一台计算机ENIAC诞生1954年,Georgetown大学在IBM的协助下,实践了世界第一个MT系统,实现了俄英翻译。 该系统于当年1月在纽约公开,在此后的10多年间,MT研究在国际上兴起,自然语言人机界面系统诞生于1956年,举行了人工智能夏季研讨会(达特茅斯会议),随着MT )研究的进展1962年,美国成立了“机器翻译与计算语言学协会(associationformachinetranslationandcomputationallinguistics )”, 第一节国际计算语言学学术年会(ACL )由1965年杂志Machine Translation )组织举办的translationandcomputationallinguistics于60年代中期由国际计算语言学委员会(the international commmon )主持

putational Linguistics,ICCL)1965年组织召开了第一届国际计算语言学大会(The International Conference on Computational Linguistics,CONING) (2)发展

其发展历程:

20世纪60年代(1960s)中期之前:萌芽期20世纪60年代(1960s)中后期:步履维艰。1966年美国科学院发表ALPAC报告,术语Computational Linguistics正式出现。20世纪70年代(1970s)中后期到1980s后期:复苏20世纪80年代(1980s)后期至今:蓬勃发展 3. 研究内容:

按照应用目标来划分,NLP广义上包括:

机器翻译:一种语言到另一种的自动翻译。如谷歌、百度、有道等信息检索:即情报检索,利用计算机系统从大量的文档中找到符合用户需求的相关信息,如谷歌、百度等搜索引擎自动文摘:将源文档的主要内容或者某方面的信息自动提取出来,并形成原文档的摘要或缩写,可用于观点挖掘。应用如电子图书管理、情报获取问答系统:如人机对话系统社区问答:如百度知道(利用用户群体智慧)信息过滤:通过计算机系统自动识别和过滤哪些满足特定条件的文档信息信息抽取:从指定文档中抽取出用户感兴趣的信息。如实体关系抽取和社会网络文档分类情感分类:图书管理、网络内容监控文字编辑和自动校对:排版、印刷和书籍编撰语言教学文字识别语音识别:文字录入、人机通讯、语音翻译文语转换/语音合成:朗读系统、人机语音接口说话人识别/认同/验证:信息安全与防伪

由于我们将语音识别、合成和说话人识别等以语音为研究对象的技术独立出来,称为语音技术,其他以文本为处理对象的研究内容作为自然语言处理的主体。

各个研究方向之间的关系如下:

4.基本问题和主要困难 (1)基本问题

形态学问题:研究词由有意义的基本单位-词素的构成问题,即分词问题(词的长度问题)的研究

语法学问题:研究句子结构成分之间的相互关系和组成句子序列的规则,即语法。试图建立快速有效的句子结构分析方法。

语义学问题:研究如何从一个语句中的词的意义,以及这些词在该语句中句法结构中的作用来推导出该句的意义。

语用学问题:研究在不同上下文中语句的应用,以及上下文对语句理解所产生的的影响。
狭义上看,语用学处理的是语言结构中有形式体现的那些语境;
广义上看,语用学处理的是研究语义学未能涵盖的那些意义。.

语音学问题:研究语音特性、语音描述、分类及转写方法啊等

(2)主要困难 大量歧义现象:
词法歧义:比如说断句存在的问题
词性歧义:同一个词的多种词性导致的歧义
结构歧义:语法结构上导致的歧义
语义歧义:使用缩略语和隐喻的表达方式而产生的歧义
语音歧义:同音词现象
多音字及韵律等歧义:一字多音,以及韵律、声调、语气等产生的影响大量未知语言现象:
包括,新词、人名地名术语;旧单词的新含义;新句法和新句型 (3)总而言之,NLU所面临的挑战 普遍存在的不确定性:从词法、句法、语义、语用和语音的各个层面未知语言现象的不可预测性:新的词汇、术语、语义、语法无处不在始终面临的数据不充分性:有限的语言集合永远无法涵盖开放的语言现象语言知识表达的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法 有效地描述,为语义计算带来了极大的困难机器翻译中映射单元的不对等性

由于机器翻译中映射单元的不对等性:词法表达不相同、句法结构不一致、语义概念不对等,机器翻译需要从大量复杂多样的不确定性中寻找确定性结论

人脑理解语言,是一个复杂的思维过程,设计到常识与背景知识、语言学、心理学、逻辑学、认知科学等等各个领域

5.NLP的基本研究方法

——理性主义与经验主义的合谋
其中理性主义方法是基于规则的方法,采用知识库+推理系统的模式,依赖于符号处理系统
其中经验主义方法是基于统计的方法,采用语料库+统计模型的模式

(1)理性主义 求解问题的基本思路:基于规则的分析方法建立符号处理系统符号处理系统则包括:规则库的开发(语法规则设计)、词典的标注(标注词性)、推导算法的设计(包括归约、推导、歧义消解等)三部分其NLP的组成采用知识库+推理系统的方法理论基础:缥缈的可乐的文法理论 (2)经验主义 求解问题的思路:基于大规模真实语料(语言数据)建立计算方法这个求解过程包括:大规模真实数据的收集、标注(需要有真实性、代表性、标注信息……)、建立统计模型(考虑模型的复杂性、有效性、参数训练方法等)其NLP的组成采用语料库+统计模型的方法理论基础:统计学、信息论、机器学习

目前现行的研究方法是进行“理性主义与经验主义的合谋”,使用符号智能+计算智能,建立融合方法

6.研究现状:

(1)部分问题得到了解决,可以为人们提供辅助性的帮助
(2)基础问题研究仍任重而道远
(3)社会需求日益迫切
(4)许多技术离真正实用的目标还有相当的距离,尚未建立起有效、完善的理论体系。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。