首页 > 编程知识 正文

随机森林特征重要性计算,袋装法随机森林和决策树

时间:2023-05-06 20:12:54 阅读:24401 作者:4276

综合学习原理总结说综合学习有两个流派。 一个是boosting派,其特征是各个弱学习器之间有依存关系。 另一个是bagging流派,其特征是各弱学习器之间没有依存关系,可以并行拟合。 本文综述了Bagging和随机森林在集成学习中的算法。

随机森林是集成学习中与梯度增长树GBDT分离的算法,可以进行特别方便的并行训练,在当前大样本数据大的时代很有吸引力。

1. Bagging原理综合学习原理总结,在bagging上画了以下原理图:

从上图可以看出,Bagging的弱学习器之间确实没有boosting那样的联系。 其特点在于“随机抽样”。 那么什么是随机抽样?

随机采样(bootsrap )是指从我们的训练集中提取固定数量的样本,但每次采样后都会返回样本。 也就是说,以前采集的样品在放回后也有可能继续采集。 在我们的Bagging算法中,通常随机采集与样本数m相同数量的样本进行训练。 这样得到的样本集和训练集中的样本数量相同,但样本内容不同。 如果对有m个样本的训练集进行t次随机采样,则由于随机性,t个样本集各不相同。

bagging对弱学习器没有限制。 这与Adaboost相同。 但是,最常用的也是决策树和神经网络。

bagging的集合策略也比较简单,对于分类问题,通常采用简单投票法,票数最多的类别或类别之一是最终的模型输出。 关于回归问题,通常采用简单平均法对t个弱学习器得到的回归结果进行算术平均,得到最终的模型输出。

Bagging算法每次都进行采样训练模型,泛化能力强,有助于降低模型的方差。 当然,对训练集的拟合度会变差。 也就是说,模型的偏差变大。

2. bagging算法流程

3 .随机森林算法理解bagging算法,随机森林(Random Forest,以下简称RF )容易理解。 那是Bagging算法的进化版。 也就是说,其思想依然是Bagging,但进行了独自的改良。 看看射频算法改进了什么。  

 

 

4 .随机森林的推广由于射频在实际应用中的良好特性,基于射频,有很多变种算法,应用广泛,不仅可以应用于分类回归,还可以应用于特征变换、异常点检测等。 总结这些射频家族算法中的代表性。

4.1额外树额外树是射频变种,原理几乎和射频一模一样,只是有区别。

1 )对于每个决策树的训练集,RF使用随机采样bootstrap选择样本集作为每个决策树的训练集,而extra trees通常不使用随机采样。 也就是说,每个决策树使用原始训练集。

2 )在选定分段特征后,射频决策树与传统决策树一样,根据信息增益、基尼系数、均方误差等原则,选择最佳模态分段点。 但是,extra trees过激,随机选择特征量来划分决策树。

第二点是随机选择特征量的分割点,不是最优点,因此生成的决策树的规模一般大于RF生成的决策树。 也就是说,模型的方差相对于RF进一步减小,但偏差相对于RF进一步增大。 在某些情况下,extra trees的泛化能力优于RF。

4.2 totallyrandomtreesembeddingtotallyrandomtreesembedding (以下简称TRTE )是非监督学习的数据转换方法。 将低维数据集映射到高维,并将高维映射的数据应用于分类回归模型。 已知在支持向量机中使用核方法高维映射低维数据集,其中TRTE提供了另一种方法。

TRTE在数据变换的过程中也使用RF这样的方法,生成t个决策树来拟合数据。 创建决策树后,数据集内的每个数据还决定了叶节点在t个决策树中的位置。 例如有三个决策树,每个决策树有五个叶节点,一个数据特征x分为第一决策树的第二叶节点、第二决策树的第三叶节点、第三决策树的第五叶节点。 x映射后的特征被编码为(0、1、0、0、0、1、0、0、0、0、0、0、0、0 ),具有15维的高维特征。 在此,在特征维度之间加入空格是为了强调3个决策树各自的子代码。

映射到高维特征后,现在可以继续使用各种监督学习的分类回归算法。

4.3 isolationforestisolationforest (以下简称IForest )是异常点检测的方法。 使用类似射频的方法检测异常点。

对于t个决策树的样本集,IForest也随机对训练集进行采样,但样本数目不必与RF相同,而对于RF,在样本集中需要采样的样本数目等于训练集的数目。 但是IForest不需要那么采样。 一般来说,采样数是否远远少于训练集数? 为什么呢? 因为我们的目的是检测异常点,所以只需要样品的一部分就可以正常地识别异常点。

对于每一个决策树的建立, IForest采用随机选择一个划分特征,对划分特征随机选择一个划分阈值。这点也和RF不同。

    另外,IForest一般会选择一个比较小的最大决策树深度max_depth,原因同样本采集,用少量的异常点检测一般不需要这么大规模的决策树。

    

5. 随机森林小结

    RF的算法原理也终于讲完了,作为一个可以高度并行化的算法,RF在大数据时候大有可为。 这里也对常规的随机森林算法的优缺点做一个总结。

    RF的主要优点有:

    1) 训练可以高度并行化,对于大数据时代的大样本训练速度有优势。个人觉得这是的最主要的优点。

    2) 由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。

    3) 在训练后,可以给出各个特征对于输出的重要性

    4) 由于采用了随机采样,训练出的模型的方差小,泛化能力强。

    5) 相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。

    6) 对部分特征缺失不敏感。

    RF的主要缺点有:

    1)在某些噪音比较大的样本集上,RF模型容易陷入过拟合。

    2) 取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。