nlp书籍,nlp基础知识

文本分类概要(NLP ) *文本分类问题(**给定文档p时，将文档分类为n个类别中的一个以上

**文本分类APP:* *常见垃圾邮件识别、情感分析

**文本分类方向： **主要有二类、多类、多标签分类

*分型方法： **传统机器学习方法(贝叶斯、SVM等)、深度学习方法(快速文本、文本CNN等) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) )。

**本文的构思： **本文主要介绍文本分类的处理过程，主要是什么方法？着力让读者了解在处理文本分类问题时应该从什么方向入手，聚焦什么问题，根据不同场景采用什么方法。

文本分类的处理大致分为文本预处理、文本特征处理、分类模型构建等。

中文分词：

基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法。

1、根据字符串匹配的分词方法，将句子分成多个部分，每个部分与词典一一对应，持续进行分词匹配，直到词在词典中时分词成功，否则不成功。

2、基于理解的分词方法：基于理解的分词方法通过让计算机模拟句子的理解，达到识别词的效果。基本思想是指在分词的同时进行句法语义分析，利用句法信息和语义信息处理歧义。通常包括分词子系统、句法语义子系统、总统制部分三部分。

3、基于统计的分词方法：

过程：统计学认为分词是概率最大化的问题。也就是说，分割句子，基于语料库，统计由邻接词构成的词出现的概率，邻接词出现的次数多的话出现的概率高。

主要统计模型有： n元语法模型、隐马尔可夫模型、最大熵模型、条件随机场。

文本预处理

1、分词：中文任务分词缺一不可。一般使用Jieba分词，是工业界的佼佼者。

2、禁用词：建立禁用词词典。

3、词性标注：分词后判断词性，使用jieba时设置参数即可获取。

文本特征工程

1、根据词袋特点进行标识。 TF-IDF模型

基于嵌入式的特征表示：根据单词向量计算文本特征。

3、基于NN Model提取的特征： NN的优点是可以在end2end中实现模型的训练和测试，利用模型的非线性和许多参数学习特征，不需要手工提取特征。

特征融合

对于特征维数高、数据模式复杂的情况，推荐非线性模型(GDBT、XGboost )。如果特征维数较低且数据模式简单，建议使用简单的线性模型，如LR。

深度学习文本分类

1、fastText模型：将文中所有词向量平均，直接连接一个softmax层进行分类。

2、利用TextCNN:CNN提取文中的n-gram等重要信息。

3、textrnn:bi-di’rectionalrnn可以理解为在某种意义上长且能捕获双向“n_gram”信息。

4、TextRNN Attention:注意机制是自然语言处理领域常用的建模长时记忆机制，能够直观地给出每个词的贡献，基本成为seq2seq模型的标配。实际上，文本分类在某种意义上也可以理解为特殊的seq2seq，所以从引入Attention开始考虑。

最后

1、模型不是最重要的，TextCNN已经得到了很好的结果。

2、了解你的数据。

3、一定要用dropout

4、软件最大丢失不一定是必需的

5、类别失衡问题。

6、避免振动训练。