视觉后端优化常用的核函数,自然语言文本分类

内容摘要数据集英语词汇中文词汇评价指标召回率和准确率F1-评价值微均值和宏均值混淆矩阵

优秀的文本分类模型必须经得起实际数据集的验证，因此分类器需要在通用数据集上进行测试。用于文本分类的数据集通常称为语料库。

语料库是指经过科学采样加工的大型电子文本库。利用计算机分析工具，研究者可以开展相关的语言理论和应用研究。语料库存储了在语言实际使用中实际出现的语言资料；语料库是以电子计算机为载体承载语言知识的基础资源，真实的词汇经过加工(分析和处理)，可以成为有用的资源。

数据集机器学习是一个认识事物、获取知识的过程。其任务是选择、提取、组织和分类对现有客观事物的认识和理解。通过学习大量实际课文，发现和探索自然语言的各种事实和规律。机器学习获得的知识对象一般称为数据集。自然语言处理领域的数据集一般称为语料库。语料库的建设已经经历了半个多世纪的发展历程。从最初的20世纪60年代初的布朗语料库和20世纪70年代初的LOB语料库，到美国计算机语言协会ACL/DCI语料库的建设。语料库语言学目前已成为自然语言处理领域的热门科研课题。

语料库在文本分类研究中的地位非常重要，因为文本分类的主流模型建立在统计学的基础上，统计机器学习模型的基础是具有统计来源和素材。分类器的实现已经需要建立在人工标注的训练数据集上，训练集质量的优劣对文本分类的性能具有决定性意义。语料库不仅可以为分类器提供机器学习的素材，还可以评价分类器的分类性能，指导分类效果的优化。

用于文本分类的语料库一般分为平衡语料库和非平衡语料库。语料库中各类别的文本数相等或几乎相等通常称为平衡语料库，每个类文本数不相等的语料库称为非平衡语料库。这两个语料库对文本分类的研究都有重要意义。

英语数据a ) 20_Newsgroups数据集：包含卡内基梅隆大学Lang于1995年收集并整理的19997份文档平均分布在20个类别中的用户新闻集团的数据。 Newsgroups已经成为文本分类和聚类中常用的数据集。麻省理工学院(MIT )的Jason Rennie对其进行了必要的处理，形成了Newsgroups-18828。原始的Newsgroups属于平衡语料库。

b ) Reuters-21578数据集：由路透社人工收集分类制作，包括路透社1987年的21578篇新闻稿，普遍成为英语文件分类领域的标准语料库。这个语料库是非平衡语料库。

c ) OHSUMED数据集)由William Hersh等人联合收集和整理。文章来源于医药信息数据库MEDLINE10，收集了1987-1991年270个医药类期刊的标题和摘要，共348566篇文章。

中文数据a ) TanCorpV1.0数据集：中国科学院计算技术研究所wmdxtz收集整理。该语料库分为第一层12个类别、第二层60个类别两个层次，总共包含14150个文本。该语料库每个类包含的文本数差异很大，是典型的非平衡语料库。

b ) Sogou实验室数据集：是编辑手工整理分类的新闻资料，新闻来源为搜狐新闻网站。 Sogou实验室根据需求整理了多个版本。常用的是SogouC.reduced.20061127语料库，分为九大类，每个类别包含1990个文档，共有17910个文档。此外，SogouC语料库的完整版有10个类，每个类包含8000个文档，共计80000个文档。这个语料库是平衡语料库。

c )复旦大学数据集：由复旦大学计算机信息技术系国际数据库中心自然语言处理小组xqdjz提供。分为20个类别，包括9833份测试文件和9804份培训文件。它还分为10个类别，提供了2816份文件。这个语料库是非平衡语料库。

评价指标人们根据不同文本分类的应用背景提出了评价分类系统性能的一些标准常用的评价标准有召回率(Recall )、准确率(Precision )、F1-评价值(F1-measure )、微均值)和宏观均值(Macro-average )。另外，作为较少评价方法，有平衡点(break-even point )、11点平均正确率(11-point average precision )等. 这里所说的“精度”(Accuracy )一般是指广义精度，再现率、准确率、F1-评价值)简单地说，可以表示F1值)、微小平均和宏观平均等评价指标。

假设表示对某文本分类系统的类别ci的分类标记结果的统计。

表1用分类结果邻接表或等价的集合来记述时，如图：所示

分类结果集合示意图左侧的椭圆表示实际测试集的分类标签，右侧的椭圆是分类器分类后标记的分类结果。上图和表中符号的含义如下。

1 ) a表示正确标记测试集中文本为类别ci的文本的数量；

2 ) b指示被错误标记为测试集文本为类别ci的文本的数目；

3 ) c表示错误排除类别ci以外的测试集中的文本数；

4 ) d表示从类别ci中正确排除测试集中文本的文本数。

召回率和准确率a )分类器在类别ci中的召回率(此外，召回率)定义如下。

b )分类器在类别ci中的标准

确率(又称查准率)定义如式：

F1-评测值

c) 分类器在类别ci 上的F1值定义如式：

召回率和准确率分别从两个方面考察分类器的分类性能。召回率过高可能导致准确率过低，反之亦然。所以综合考虑分类结果召回率和准确率的平衡，采用F1-评测值比较合理。

微平均与宏平均

文本分类系统的分类结果，每个类对应都有一个召回率和准确率，它们评价的是单个类别上的分类精度。因此，可以通过这些单个类别的精度评价整个分类系统的整体性能。
微平均从分类器的整体角度考虑，不考虑分类体系的小类别上的分类精度。它是利用被正确分类标注的文本总数aall ,被错误分类标注的文本总数ball ,以及应当被正确分类标注而实际上却被错误地排除的文本总数call 分别替换上式中的a、b、c得到的微平均召回率、微平均准确率和微平均F1值。微平均本质讲是一项考察分类器整体能够正确分类标注多少文本。如果每一篇文本必须属于一个类别的话，则有下式成立：

那么微平均召回率、微平均准确率与微平均F1值相等。所以微平均F1值计算如下式所示：

宏平均是从分类器小类别的整体考虑，首先计算出每一类别的召回率与准确率，然后对召回率与准确率分别取算术平均得到的宏平均召回率与宏平均准确率。最后根据宏平均召回率与宏平均准确率计算宏平均F1值。
a) 宏平均召回率
其计算式如下所示：

其中 recalli 为类别ci 的准确率，P 为分类体系类别数目。
b) 宏平均准确率
其计算式如下所示：

其中 precisioni 为类别ci 的召回率，P 为分类体系类别数目。
c) 宏平均F1值
其计算式如下所示：

宏平均考察分类器对不同类别的处理能力。尤其在非平衡数据集上，宏平均能够更好地衡量分类器处理小样本类别的分类能力。换句话说，微平均从文本分类标注正确总数角度衡量分类精度，宏平均是从每一类别文本标注正确的角度衡量分类精度。

混淆矩阵

混淆矩阵(Confusion Matrix)：在文本分类中，使用混淆矩阵显示分类测试标注的统计情况，是一种可视化结果统计显示工具。其形式如表所示：

表2 分类结果混淆矩阵示意表

表2中第一行代表实际测试的数据集类别，每一类代表对应第一类实际类别被分类的情况。例如对应类别ci 的表1中的c值与b值分别如下式所示：

表2中对角线上的值就是每一个类正确分类的文本数(表1中的a)。

知更鸟博文推荐上一篇文本分类——常见分类模型下一篇特征选择——Matrix Projection算法研究与实现推荐篇基于Kubernetes、Docker的机器学习微服务系统设计——完整版研究篇 RS中文分词 | MP特征选择 | NLV文本分类 | 快速kNN 作者简介兴趣爱好机器学习、云计算、自然语言处理、文本分类、深度学习E-mailxsd-cmdgq@163.com (欢迎交流)

参考文献：
[1] Sebastiani，F. Machine learning in automated text categorization [J]. ACM Comput. Surv. 34(1): 1-47.
[2] 苗条的雪碧，寒冷的香烟，wndzh，笑点低的蜜蜂.基于类别分布的特征选择框架[J].计算机研究与发展，46(9)：1586-1593.
[3] Tan，S. B.，Cheng，X. Q.，Ghanem，M. M.，Wang，B.，Xu，H. B. A novel refinement approach for text categorization [C]. In: ACM CIKM
[4] 悲凉的冬瓜，gxdhs，徐昕. 基于机器学习的文本分类技术研究进展[J].软件学报，17(9):1848~1859.
[5] Joachims，T. A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization [C]. In: Proc. of the ICML’97：143-151.
[6] wmdxtz，超帅的黑米.中文文本分类语料库-TanCorpV1.0 .
[7] Kim，H. J.，Shrestha，J.，Kim，H. N.，et al. User action based adaptive learning with weighted Bayesian classification for filtering spam mail [J]. Lecture Notes in Artificial Intelligence，43(4)：790-798.
[8] 中国科学院计算技术研究所自然语言处理研究组. 文本分类评测大纲.