特征选择是基于特定标准选择特征的最佳子集的过程。

为什么我们需要特征选择（feature selection）？

特征选择最直观的原因是避免维数灾害，维数过多会在算法的计算速度、可解释性等方面产生很多影响；其次是特征少，可视化容易，有利于模型选择。最后，维度过多必然会带来很多噪音。这对我们建立模型非常不利。概括起来如下。

提高性能(在速度、预测能力和模型简单性方面)，将模型选择数据可视化以减少维数，从而消除噪声特性选择带来的好处：

删除无关的数据。提高学习模型的预测精度。降低数据成本。提高学习效率，包括降低存储要求和计算成本。降低了最终模型描述的复杂性，提高了对数据和模型的理解。

特征选择的三大方法

过滤法：选择变量的子集。不考虑之后使用的模型。包装方法：选择变量的子集，兼顾考虑使用它们的模型。嵌入法：特征选择方法被制作在机器学习模型(或者更准确地说是其训练算法)本身)中，例如决策树)被嵌入。

过滤法（Filter)

过滤法检测特征向量与目标(响应变量)的相关度，不依赖任何模型，利用基于统计量的措施、相关性测量、一致性测量、准确性测量等各种指标进行筛选。

因此，从某种意义上说，滤波法就像是一个单独的数学问题，不考虑与模型的关系，只利用滤波后特征的子集进行建模和训练。

属于过滤法的特征选择方法很多，可以针对目标变量确定特征，预测结果的重要性高时选择。列举几个典型的过滤方法。

信息熵

信息熵用于在接收消息时测量接收机的不确定性。

香农熵：

信息增益：

距离测度

分离可能性、区别或分歧的措施。最典型的是类条件密度函数之间的导出距离。常用的距离测量方法如下

KL松散度

也被称为相对熵，用于测量两个概率分布的差异。

其计算公式：

一致的措施

尝试找出最小数量的特征，像完整的特征集一样分离类。

目标是实现p (c |全集)=p ) c |子集)。

不匹配定义为具有相同输入(相同特征量)但具有不同输出特征量(分类中的类)的两个例子的情况。

正确的措施。

这种评价形式取决于分类器或学习者。从各种可能的特征子集中选择生成最佳预测精度的子集。也就是说，只要我们选择加入特征子集的特征对提高精度有正面作用，就会被选择。

总结：过滤法

测量不确定性、距离、依赖性或一致性通常比测量学习过程的准确性要容易得多。因此，过滤方法通常会更快。与的学习偏差无关，可以使用这样选择的特征从不同的数据挖掘技术中学习不同的模型。由于评价措施简单和时间复杂程度低，可以处理更粗略的数据。

包裹法（Warpper）

与过滤法不同，包裹法采用特征检索的方法。其基本思路是不断从初始特征集中进行选择

择子集，根据学习器的性能来对子集进行评价，直到选择出最佳的子集。在搜索过程中，我们会对每个子集做建模和训练。

包裹法可以达到提高特定学习者预测性能的目的。过滤法不能让学习算法充分利用其偏差，而包裹法可以。

这是一个迭代过程。在每次迭代中，生成几个输入变量子集并在特定模型类型上进行测试。根据单个特征子集的模型的成功，选择将在下一次迭代中测试哪些子集。特征选择是模型训练的一部分，我们需要单独的测试数据来评估最终的模型错误。

模型类型及其学习算法视为黑盒子。在应用包裹法选择特征之前，我们必须确定：

应使用哪种型号和学习算法？如何评估模型的准确性？基于测试数据，还是使用k-fold交叉验证？如何搜索可能的特征子集的空间？

这是NP难问题。枚举搜索仅适用于少量特征（如具有Iris数据集）。经常使用的是贪婪搜索（前向选择或后向消除）。还有分支定界法，模拟退火法，遗传算法，等等。

这种包裹方法，特征选择本质上是一个搜索问题，其中搜索空间的每个状态对应于所选特征的具体子集。

选择可以表示为二进制数组，如果特征当前由算法选择，则每个元素对应于值1，如果不发生，则为0。如果数据集的特征数是M,总共有2^M个子集。

搜索方向：

顺序前向生成（SFG）：它以一组空的特征S开始。当搜索开始时，根据将最佳特征与其他特征区分开的一些标准将特征添加到S中。 S一直在增长，直到达到一整套原始功能。停止标准可以是相关特征的数量的阈值，或者简单地是在强力模式中生成所有可能的子集。

顺序后向生成（SBG）：它从一整套功能开始，迭代地，它们一次被删除一个。在这里，标准必须指出最差或最不重要的特征。最后，子集仅由唯一的特征组成，该特征被认为是整个集合中信息最丰富的特征。与前一种情况一样，可以使用不同的停止标准。

嵌入法（Embedding）

类似于包装器方法，在某种意义上，特征是为特定的学习算法选择的，但在这种方法中，在学习过程中选择了特征。

他们可以利用可用数据，而无需将训练数据分成训练和验证集; 他们可以通过避免重新训练已经探索到的每个特征子集的预测器，来实现更快的解决方案。

嵌入法的特色在于，特征选择会在学习器的训练过程中自动完成。

线性回归的正则化算法Ridge Regression和LASSO、决策树算法就是典型的嵌入法特征选择方法：

岭回归Ridge Regression的目标函数：

LASSO目标函数：

如下图所示，通过加入正则项，一些系数会趋近收缩于0。从特征选择角度来说，普通的多元线性回归要提前进行特征筛选，如果某个变量t检验不显著，通常会将它剔除再做回归。但是在做岭回归的时候，我们没必要做变量的剔除，而是将这个变量的系数向0“收缩”，使得这个变量在回归方程中的影响变的很小。

相比于岭回归，LASS回归更是厉害，把一些回归系数压缩为零，使模型更加精练，达到了特征选择的目的。

决策树也是典型的嵌入法。

决策树是利用信息增益（率）选择特征分裂节点。所以，在生成决策树的过程就是选择特征的过程，并且根据特征的不同取值构建子节点，直到特征没有分类能力或者很小，就停止生成节点。