特征值选择方法,特征选择方法的分类

在文本分类过程中，当特征(也可以简称为“词”)从人能理解的形式转换为计算机能理解的形式时，实际上是两个阶段的量化——特征选择阶段的重要度的量化以及将具体文本转换为向量时的特征权重的量化由于第一次接触文本分类的人很容易混淆这两个步骤中使用的方法和各自的目的，所以经常会听到“使用TFIDF进行特征选择的方法”和“在卡方检验中量化权重后，任何文章都是一样的”等困惑。文本分类本质上也是模式识别的问题，所以我想借用更直观的例子来说明特征选择和权重分别是什么。当然，解释一下，马上就会觉得文本分类是个笨蛋，不是很技术性的水平吧。虽然不能再继续看我的技术博客了，但我不担心。因为你走在更光明的路上(笑)。还没来得及。

想想用指纹识别人的身份。即使只看人的指纹，他的名字当然也不能说是谁。识别的过程实际上是比对的过程，需要与现有的指纹库进行比较，找出是相同还是在某种程度上相似。

第一个问题是，人的指纹太复杂，位置和几何形状太多，要完全再现人的指纹，保存和计算都很麻烦。因此，第一步始终是特征选择的问题，我们来统计一下整个人类的指纹，看看哪个位置能最好地区分不同的人。很明显，不同的位置有不同的效果。在某个位置，我的指纹是什么形状，别人也几乎都是这个形状，这个位置要么没有区别度，要么不具有特征性，对分类问题来说重要性很低。这样的位置，在识别时有完全不看、不考虑的倾向。

那么，谁重要，谁不重要？这取决于具体的选择方法如何量化重要度，在卡方检验和信息增益这样的方法中，量化后的得分越大特征越重要(也就是说，可能也有得分越小特征越重要的方法)。

例如，看看10个职位。他们的重要度分别如下。

12 3 4 56 789 10

(二十、五、十、二十、三十、十五、四、三、七、三) )

很明显，第一、三、四、五、六个位置比其他位置更重要，而第一个位置比第三个位置更重要。

识别的时候，我们只在那些重要的位置取样。今天的指纹识别系统几乎只用到人指纹的五个位置。仅5个位置的信息就可以区分60亿人)，这5个位置是经过特征选择过程保存的系统特征的集合。如果这是刚才的例子，集合应该如下。

(第一个位置、第三个位置、第四个位置、第五个位置、第六个位置)

当然，具体的第三个位置是指纹中的哪个位置，必须自己弄清楚。

确定了这五个位置后，可以将一个人的指纹映射到这个只有5维的空间。因此，将他在五个位置的几何形状分别转换为具体的值。这就是特征权重的计算。要说基于什么进行变换，那就是量化你选择的特征权重的方法。在文本分类中，最常用的是TFIDF。

我想，一定是“权重”这个词误导了所有人，让大家以为TFIDF算出的值代表了特征的重要程度，其实完全不同。例如我们有男学生。他的指纹向量如下。

(十、三、四、二十、五) )。

你注意到他第一个位置的得分(10 )比第三个位置的得分(3)高吗？那么，可以说第一个职位比第三个职位重要吗？如果还有一个女学生，她的指纹向量如下。

(十、二十、四、二十、五) )。

请看。第一个位置的得分(10 )又低于第三个位置(20 )。那两个职位到底哪个更重要呢？答案是第一个位置更重要，但这不是在特征权重计算这一步骤中出现，而是在我们的特征被选择的时候确定。第一个位置比第三个位置更重要。

因此，在TFIDF中计算一个特征的权重时，请记住该权重所表示的不是特征的重要度

那个代表着什么？看着两个同学的指纹，一起说：

(十、三、四、二十、五) )。

(十、二十、四、二十、五) )。

在第三个位置

上女同学的权重高于男同学，这不代表该女同学在指纹的这个位置上更“优秀“（毕竟，指纹还有什么优秀不优秀的分别么，笑），也不代表她的这个位置比男同学的这个位置更重要，3和20这两个得分，仅仅代表他们的”不同“。

在文本分类中也是如此，比如我们的系统特征集合只有两个词：

（经济，发展）

这两个词是使用卡方检验（特征选择）选出来的，有一篇文章的向量形式是

（2，5）

另一篇

（3，4）

这两个向量形式就是用TFIDF算出来的，很容易看出两篇文章不是同一篇，为什么？因为他们的特征权重根本不一样，所以说权重代表的是差别，而不是优劣。想想你说“经济这个词在第二篇文章中得分高，因此它在第二篇文章中比在第一篇文章中更重要“，这句话代表什么意义呢？你自己都不知道吧（笑）。

所以，当再说起使用TFIDF来计算特征权重时，最好把“权重“这个字眼忘掉，我们就把它说成计算得分好了（甚至”得分“也不太好，因为人总会不自觉的认为，得分高的就更重要），或者就仅仅说成是量化。

如此，你就再也不会拿TFIDF去做特征选择了。

小Tips：为什么有的论文里确实使用了TFIDF作特征选择呢？

严格说来并不是不可以，而且严格说来只要有一种方法能够从一堆特征中挑出少数的一些，它就可以叫做一种特征选择方法，就连“随机选取一部分“都算是一种，而且效果并没有差到惊人的地步哦！还是可以分对一大半的哦！所以有的人就用TFIDF的得分来把特征排排序，取得分最大的几个进入系统特征集合，效果也还行（毕竟，连随机选取效果也都还行），怎么说呢，他们愿意这么干就这么干吧。就像咱国家非得实行户口制度，这个制度说不出任何道理，也不见他带来任何好处，但不也没影响二十一世纪成为中国的世纪么，呵呵。