首页 > 编程知识 正文

价值观原理方法论(方法论特点)

时间:2023-05-04 04:05:14 阅读:88468 作者:4057

特征选择是基于特定标准选择特征的最佳子集的过程。

为什么我们需要特征选择(feature selection)?

特征选择最直观的原因是避免维数灾害,维数过多会在算法的计算速度、可解释性等方面产生很多影响; 其次是特征少,可视化容易,有利于模型选择。最后,维度过多必然会带来很多噪音。 这对我们建立模型非常不利。 概括起来如下。

提高性能(在速度、预测能力和模型简单性方面),将模型选择数据可视化以减少维数,从而消除噪声特性选择带来的好处:

删除无关的数据。 提高学习模型的预测精度。 降低数据成本。 提高学习效率,包括降低存储要求和计算成本。 降低了最终模型描述的复杂性,提高了对数据和模型的理解。

特征选择的三大方法

过滤法:选择变量的子集。 不考虑之后使用的模型。 包装方法:选择变量的子集,兼顾考虑使用它们的模型。 嵌入法:特征选择方法被制作在机器学习模型(或者更准确地说是其训练算法)本身)中,例如决策树)被嵌入。

过滤法(Filter)

过滤法检测特征向量与目标(响应变量)的相关度,不依赖任何模型,利用基于统计量的措施、相关性测量、一致性测量、准确性测量等各种指标进行筛选。

因此,从某种意义上说,滤波法就像是一个单独的数学问题,不考虑与模型的关系,只利用滤波后特征的子集进行建模和训练。

属于过滤法的特征选择方法很多,可以针对目标变量确定特征,预测结果的重要性高时选择。 列举几个典型的过滤方法。

信息熵

信息熵用于在接收消息时测量接收机的不确定性。

香农熵:

信息增益:

距离测度

分离可能性、区别或分歧的措施。 最典型的是类条件密度函数之间的导出距离。 常用的距离测量方法如下

相关性度量

称为相关或相关的度量。

其主要目标是量化两个变量是相互关联的强度还是相互关联的强度,从而知道一个变量的价值,得到另一个变量的价值。

pldy相关系数:

用图表示以pldy相关系数表现的两个变量之间的关系。

KL松散度

也被称为相对熵,用于测量两个概率分布的差异。

其计算公式:

一致的措施

尝试找出最小数量的特征,像完整的特征集一样分离类。

目标是实现p (c |全集)=p ) c |子集)。

不匹配定义为具有相同输入(相同特征量)但具有不同输出特征量(分类中的类)的两个例子的情况。

正确的措施。

这种评价形式取决于分类器或学习者。 从各种可能的特征子集中选择生成最佳预测精度的子集。 也就是说,只要我们选择加入特征子集的特征对提高精度有正面作用,就会被选择。

总结:过滤法

测量不确定性、距离、依赖性或一致性通常比测量学习过程的准确性要容易得多。 因此,过滤方法通常会更快。 与的学习偏差无关,可以使用这样选择的特征从不同的数据挖掘技术中学习不同的模型。 由于评价措施简单和时间复杂程度低,可以处理更粗略的数据。

包裹法(Warpper)

与过滤法不同,包裹法采用特征检索的方法。 其基本思路是不断从初始特征集中进行选择

择子集,根据学习器的性能来对子集进行评价,直到选择出最佳的子集。在搜索过程中,我们会对每个子集做建模和训练。

包裹法可以达到提高特定学习者预测性能的目的。过滤法不能让学习算法充分利用其偏差,而包裹法可以。

这是一个迭代过程。在每次迭代中,生成几个输入变量子集并在特定模型类型上进行测试。根据单个特征子集的模型的成功,选择将在下一次迭代中测试哪些子集。特征选择是模型训练的一部分,我们需要单独的测试数据来评估最终的模型错误。

模型类型及其学习算法视为黑盒子。在应用包裹法选择特征之前,我们必须确定:

应使用哪种型号和学习算法?如何评估模型的准确性?基于测试数据,还是使用k-fold交叉验证?如何搜索可能的特征子集的空间?

这是NP难问题。枚举搜索仅适用于少量特征(如具有Iris数据集)。经常使用的是贪婪搜索(前向选择或后向消除)。还有分支定界法,模拟退火法,遗传算法,等等。

这种包裹方法,特征选择本质上是一个搜索问题,其中搜索空间的每个状态对应于所选特征的具体子集。

选择可以表示为二进制数组,如果特征当前由算法选择,则每个元素对应于值1,如果不发生,则为0。如果数据集的特征数是M,总共有2^M个子集。

搜索方向:

顺序前向生成(SFG):它以一组空的特征S开始。当搜索开始时,根据将最佳特征与其他特征区分开的一些标准将特征添加到S中。 S一直在增长,直到达到一整套原始功能。 停止标准可以是相关特征的数量的阈值,或者简单地是在强力模式中生成所有可能的子集。

顺序后向生成(SBG):它从一整套功能开始,迭代地,它们一次被删除一个。 在这里,标准必须指出最差或最不重要的特征。 最后,子集仅由唯一的特征组成,该特征被认为是整个集合中信息最丰富的特征。 与前一种情况一样,可以使用不同的停止标准。

嵌入法(Embedding)

类似于包装器方法,在某种意义上,特征是为特定的学习算法选择的,但在这种方法中,在学习过程中选择了特征。

他们可以利用可用数据,而无需将训练数据分成训练和验证集; 他们可以通过避免重新训练已经探索到的每个特征子集的预测器,来实现更快的解决方案。

嵌入法的特色在于,特征选择会在学习器的训练过程中自动完成。

线性回归的正则化算法Ridge Regression和LASSO、决策树算法就是典型的嵌入法特征选择方法:

岭回归Ridge Regression的目标函数:

LASSO目标函数:

如下图所示,通过加入正则项,一些系数会趋近收缩于0。从特征选择角度来说,普通的多元线性回归要提前进行特征筛选,如果某个变量t检验不显著,通常会将它剔除再做回归。但是在做岭回归的时候,我们没必要做变量的剔除,而是将这个变量的系数向0“收缩”,使得这个变量在回归方程中的影响变的很小。

相比于岭回归,LASS回归更是厉害,把一些回归系数压缩为零,使模型更加精练,达到了特征选择的目的。

决策树也是典型的嵌入法。

决策树是利用信息增益(率)选择特征分裂节点。所以,在生成决策树的过程就是选择特征的过程,并且根据特征的不同取值构建子节点,直到特征没有分类能力或者很小,就停止生成节点。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。