首页 > 编程知识 正文

nlp自然语言处理视频(nlp自然语言处理集训营)

时间:2023-05-04 21:52:23 阅读:101569 作者:2204

图片:pixabay

来源:machinelearningmastery

作者:杰森布朗利

《机器人圈》编译:嗯~智能短靴,朵拉A点亮。

提到AI,可能会不假思索地想到自然语言处理、人脸识别、无人驾驶等。你真的知道这件事吗?接下来,让我们以自然语言处理为例来详细谈谈。

自然语言处理(简称NLP)被广泛定义为通过软件对语音、文本等自然语言进行自动操作。

自然语言处理的研究已经进行了50多年,随着计算机的兴起,它的发展已经超出了语言学的范围。

读完这篇文章,你会明白什么是自然语言处理,为什么它如此重要:

什么是自然语言?它与其他类型的数据有何不同?

是什么让处理自然语言的工作如此具有挑战性?

自然语言处理的领域来自哪里?现代从业者如何定义?

现在让我们深入探讨一下吧!

自然语言

自然语言是指我们人类相互交流的方式,即语音和文本。我们一直被短信包围着。

想象一下你每天会看到多少条短信:

标志

菜单

电子邮件

正文消息

网页

还有更多.

甚至可以说,这份名单没完没了。

现在我们先考虑发音。

作为一个物种,我们可以相互交流,这远远超出了我们需要写的东西。我们不得不承认,学习说话比写作容易得多。

声音和文字是我们相互交流的方式。

鉴于这类数据的重要性,我们必须有一种理解和理解自然语言的方法,就像我们对其他类型的数据所做的那样。

自然语言的挑战

使用自然语言数据的问题还没有解决。

这个领域的专家已经研究了半个多世纪,但必须承认,这真的很难。

对于那些不得不花很多年时间学习语言的孩子来说,这是很困难的。对一个成年人来说,学习一门语言是非常困难的。对于试图建模的科学家来说,这是非常困难的。同样,对于试图构建处理自然语言输入或输出的系统的工程师来说,这也是非常困难的。这些任务非常困难,图灵将能够以自然语言流利地交流作为他智力测试的核心。

3354 2010 《数学语言学》,第248页

自然语言之所以难,主要是因为它太混乱了,几乎没有什么规律可循。

但大多数时候,我们只是很容易理解对方。

人类的语言非常模糊.它在不断变化和发展。自古以来,人类就非常善于创造和理解语言,能够表达、感知和解释非常精细和微妙的含义。与此同时,虽然我们人类是一个使用语言的庞大群体,但在对用于管理语言的规则的形式化理解和描述上,我们仍然存在一些不足。

33542017 《自然语言处理中的神经网络方法》,第1页

从语言到自然语言处理

语言学

语言学是对语言的科学研究,包括语法、语义和语音。

古典语言学涉及语言规则的设计和评价,在语法和语义方面取得了很大进展。然而,在大多数情况下,自然语言理解中有许多有趣的问题阻碍了清晰的数学形式。

广义地说,语言学家可以是任何研究语言的人,但更一般地说,一个假装是语言学家的人可能更专注于这个领域之外的领域。

它是数学科学的工具。从事自然语言工作的数学家可能把他们的研究称为数学语言学,只关注离散数学形式主义和自然语言理论(如形式语言和自动机理论)的运用。

计算语言学

计算语言学是利用计算机科学工具对语言学进行的现代研究。昨天的语言学可能是今天的计算语言学家,因为计算工具的使用和思维方式的改变已经跨越了大多数研究领域。

计算语言学是对理解和产生自然语言的计算机系统的研究。计算语言学的一个基本功能是测试理论语言学家提出的语法。

33541986 《计算语言学》引言第4-5页

大数据和计算机的发展意味着通过编写和运行软件,可以从大量的文本数据集中发现新的和不同的东西。

20世纪90年代,统计方法和统计机器学习开始流行,并最终取代了经典的自上而下的基于规则的语言方法,这主要得益于它们出色的结果、快速的速度和鲁棒性。现在研究自然语言的统计方法在这个领域占主导地位,它可以定义这个领域。

如今,数据驱动的自然语言处理方法非常流行,被公认为计算语言学的主流方法。导致这种发展的一个强大因素无疑是可用电子存储数据的增加,从而为这些处理方法的应用提供了足够的数据。由于观察到的脆性,另一个因素可能是在看到现有方法的脆弱性后,过度依赖手动制动规则的觉醒。

3354 2005 《牛津计算语言学手册》,第358页

自然语言的统计方法不仅限于统计本身,还包括应用机器学习中使用的高级推理方法。

p>

理解自然语言并不是一件简单的事情,这需要大量的关于形态学、语法、语义和语用学知识,以及对世界的普遍认识。获取和对所有这些知识进行编码是开发具有良好有效性和鲁棒性的语言系统的根本障碍之一。就像统计方法一样,机器学习方法并没有做到这一点,即从带有注释或未注释的语言语料库中自动获取这种知识。

——2005年《牛津计算语言学手册》,第377页

统计自然语言处理

计算语言学也被称为自然语言处理或NLP,以反映统计方法的更为基于工程师或经验的方法性一面。

该领域的统计优势还常常导致NLP被描述为统计自然语言处理,也许是为了将其与经典计算语言学方法区别开来。

我认为计算语言学既具有科学的一面又具有工程学的一面。称为工程学的这一面,通常称为自然语言处理(NLP),主要涉及构建计算工具,以便使用语言做有用的事情,例如机器翻译、总结、问答等。与任何工程学科一样,自然语言处理也涵盖了各种不同的科学学科。

——2009年《统计变革是如何改变(计算)语言学的》

语言学是一个很大的研究课题,虽然NLP的统计学方法在某些领域取得了巨大的成功,但从传统的自上而下的方法来看,仍然有很大的空间和巨大的收益。

粗略地说,统计NLP将概率与在分析话语或文本过程中遇到的替代方案相关联,并将最可能的结果接受为正确的结果。 ......毫不奇怪的是,词语的名称现象在世界上都是密切相关的,或者我们对它的认知,在关于世界的事实反映在文本的一些模糊事实上,经常彼此接近。这个观点有很大的争论空间。

——2005年《牛津计算语言学手册》,第19页

自然语言处理

作为对处理文本数据感兴趣的机器学习从业者,我们关注自然语言处理领域中的工具和方法。

在前面的内容中,我们已经看到了从语言学到NLP的路径。现在,我们来看看现代研究人员和从业人员如何定义NLP的所有内容。

在这一领域最顶尖研究人员撰写的教科书中,他们将这个学科称为“语言科学”,允许讨论古典语言学和现代统计学方法。

语言科学的目的是能够描述和解释围绕在我们周围的大量语言观察,在对话、写作和其他媒体中。其中一部分与人类获取、产生和理解语言的认知范围有关,一部分与理解语言话语与世界的关系有关,一部分与了解用哪种语言沟通的语言结构有关。

——1999年《统计自然语言处理基础》,第3页

他们通过在自然语言处理中使用统计方法继续关注推理过程。

统计NLP旨在对自然语言领域进行统计推理。统计推理通常包括采取一些数据(根据一些未知概率分布生成),然后对该分布进行一些推断。

—— 1999年《统计自然语言处理基础》,第191页

在应用自然语言处理的文本中,作者、NLP的知名NLPK Python库的贡献者将其广泛描述为使用计算机来处理自然语言数据。

我们将采用自然语言处理(简称NLP),涵盖了对自然语言任何类型的计算机操作。一方面,它可以简单地计算单词频率来比较不同的写作风格。另一方面,NLP涉及“理解”完整的人类言语,至少在能够给予有效回应的程度上。

——2009《用Python进行自然语言处理》,第9页

统计NLP已经转向另一个角度,现在强调使用深度学习神经网络来对特定任务进行推理,并开发强大的端对端系统。

在第一本专门针对这一新兴主题的教科书中,Yoav 凶狠的书包简洁地将NLP定义为将自然语言作为输入或生成自然语言作为输出的自动方法。

自然语言处理(NLP)是指人类语言的自动计算处理的总称。这包括将人类生成的文本作为输入的算法,以及生成自然文本作为输出的算法。

——2017年《自然语言处理中的神经网络方法》,第17页

进一步阅读

如果你想更深入了解,本部分将提供有关该主题的更多资源。

图书:

《数学语言学》,2010,http://amzn.to/2tO1cOO

《自然语言处理中的神经网络方法》,2017,http://amzn.to/2u0JtPl

《计算语言学:导论》,1986,http://amzn.to/2h6U4qY

《牛津计算语言学手册》,2005年,http://amzn.to/2uHeERE

《统计自然语言处理基础》,1999,http://amzn.to/2uzwxDE

《用Python进行自然语言处理》,2009,http://amzn.to/2uZMF27

维基百科:

维基百科上的语言学,https://en.wikipedia.org/wiki/Linguistics

维基百科上的计算语言学,https://en.wikipedia.org/wiki/Computational_linguistics

维基百科上的自然语言处理https://en.wikipedia.org/wiki/Natural_language_processing

维基百科上的自然语言处理史https://en.wikipedia.org/wiki/History_of_natural_language_processing

维基百科上的自然语言处理概要https://en.wikipedia.org/wiki/Outline_of_natural_language_processing

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。