首页 > 编程知识 正文

nlp书籍,nlp基础知识

时间:2023-05-03 11:09:27 阅读:147539 作者:17

文本分类概要(NLP ) *文本分类问题(**给定文档p时,将文档分类为n个类别中的一个以上

**文本分类APP:* *常见垃圾邮件识别、情感分析

**文本分类方向: **主要有二类、多类、多标签分类

*分型方法: **传统机器学习方法(贝叶斯、SVM等)、深度学习方法(快速文本、文本CNN等) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) )。

**本文的构思: **本文主要介绍文本分类的处理过程,主要是什么方法? 着力让读者了解在处理文本分类问题时应该从什么方向入手,聚焦什么问题,根据不同场景采用什么方法。

文本分类的处理大致分为文本预处理、文本特征处理、分类模型构建等。

中文分词:

基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。

1、根据字符串匹配的分词方法,将句子分成多个部分,每个部分与词典一一对应,持续进行分词匹配,直到词在词典中时分词成功,否则不成功。

2、基于理解的分词方法:基于理解的分词方法通过让计算机模拟句子的理解,达到识别词的效果。 基本思想是指在分词的同时进行句法语义分析,利用句法信息和语义信息处理歧义。 通常包括分词子系统、句法语义子系统、总统制部分三部分。

3、基于统计的分词方法:

过程:统计学认为分词是概率最大化的问题。 也就是说,分割句子,基于语料库,统计由邻接词构成的词出现的概率,邻接词出现的次数多的话出现的概率高。

主要统计模型有: n元语法模型、隐马尔可夫模型、最大熵模型、条件随机场。

文本预处理

1、分词:中文任务分词缺一不可。 一般使用Jieba分词,是工业界的佼佼者。

2、禁用词:建立禁用词词典。

3、词性标注:分词后判断词性,使用jieba时设置参数即可获取。

文本特征工程

1、根据词袋特点进行标识。 TF-IDF模型

基于嵌入式的特征表示:根据单词向量计算文本特征。

3、基于NN Model提取的特征: NN的优点是可以在end2end中实现模型的训练和测试,利用模型的非线性和许多参数学习特征,不需要手工提取特征。

特征融合

对于特征维数高、数据模式复杂的情况,推荐非线性模型(GDBT、XGboost )。 如果特征维数较低且数据模式简单,建议使用简单的线性模型,如LR。

深度学习文本分类

1、fastText模型:将文中所有词向量平均,直接连接一个softmax层进行分类。

2、利用TextCNN:CNN提取文中的n-gram等重要信息。

3、textrnn:bi-di’rectionalrnn可以理解为在某种意义上长且能捕获双向“n_gram”信息。

4、TextRNN Attention:注意机制是自然语言处理领域常用的建模长时记忆机制,能够直观地给出每个词的贡献,基本成为seq2seq模型的标配。 实际上,文本分类在某种意义上也可以理解为特殊的seq2seq,所以从引入Attention开始考虑。

最后

1、模型不是最重要的,TextCNN已经得到了很好的结果。

2、了解你的数据。

3、一定要用dropout

4、软件最大丢失不一定是必需的

5、类别失衡问题。

6、避免振动训练。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。