随机森林特征重要性计算,袋装法随机森林和决策树

综合学习原理总结说综合学习有两个流派。一个是boosting派，其特征是各个弱学习器之间有依存关系。另一个是bagging流派，其特征是各弱学习器之间没有依存关系，可以并行拟合。本文综述了Bagging和随机森林在集成学习中的算法。

随机森林是集成学习中与梯度增长树GBDT分离的算法，可以进行特别方便的并行训练，在当前大样本数据大的时代很有吸引力。

1. Bagging原理综合学习原理总结，在bagging上画了以下原理图：

从上图可以看出，Bagging的弱学习器之间确实没有boosting那样的联系。其特点在于“随机抽样”。那么什么是随机抽样？

随机采样(bootsrap )是指从我们的训练集中提取固定数量的样本，但每次采样后都会返回样本。也就是说，以前采集的样品在放回后也有可能继续采集。在我们的Bagging算法中，通常随机采集与样本数m相同数量的样本进行训练。这样得到的样本集和训练集中的样本数量相同，但样本内容不同。如果对有m个样本的训练集进行t次随机采样，则由于随机性，t个样本集各不相同。

bagging对弱学习器没有限制。这与Adaboost相同。但是，最常用的也是决策树和神经网络。

bagging的集合策略也比较简单，对于分类问题，通常采用简单投票法，票数最多的类别或类别之一是最终的模型输出。关于回归问题，通常采用简单平均法对t个弱学习器得到的回归结果进行算术平均，得到最终的模型输出。

Bagging算法每次都进行采样训练模型，泛化能力强，有助于降低模型的方差。当然，对训练集的拟合度会变差。也就是说，模型的偏差变大。

2. bagging算法流程

3 .随机森林算法理解bagging算法，随机森林(Random Forest，以下简称RF )容易理解。那是Bagging算法的进化版。也就是说，其思想依然是Bagging，但进行了独自的改良。看看射频算法改进了什么。　

4 .随机森林的推广由于射频在实际应用中的良好特性，基于射频，有很多变种算法，应用广泛，不仅可以应用于分类回归，还可以应用于特征变换、异常点检测等。总结这些射频家族算法中的代表性。

4.1额外树额外树是射频变种，原理几乎和射频一模一样，只是有区别。

1 )对于每个决策树的训练集，RF使用随机采样bootstrap选择样本集作为每个决策树的训练集，而extra trees通常不使用随机采样。也就是说，每个决策树使用原始训练集。

2 )在选定分段特征后，射频决策树与传统决策树一样，根据信息增益、基尼系数、均方误差等原则，选择最佳模态分段点。但是，extra trees过激，随机选择特征量来划分决策树。

第二点是随机选择特征量的分割点，不是最优点，因此生成的决策树的规模一般大于RF生成的决策树。也就是说，模型的方差相对于RF进一步减小，但偏差相对于RF进一步增大。在某些情况下，extra trees的泛化能力优于RF。

4.2 totallyrandomtreesembeddingtotallyrandomtreesembedding (以下简称TRTE )是非监督学习的数据转换方法。将低维数据集映射到高维，并将高维映射的数据应用于分类回归模型。已知在支持向量机中使用核方法高维映射低维数据集，其中TRTE提供了另一种方法。

TRTE在数据变换的过程中也使用RF这样的方法，生成t个决策树来拟合数据。创建决策树后，数据集内的每个数据还决定了叶节点在t个决策树中的位置。例如有三个决策树，每个决策树有五个叶节点，一个数据特征x分为第一决策树的第二叶节点、第二决策树的第三叶节点、第三决策树的第五叶节点。 x映射后的特征被编码为(0、1、0、0、0、1、0、0、0、0、0、0、0、0 )，具有15维的高维特征。在此，在特征维度之间加入空格是为了强调3个决策树各自的子代码。

映射到高维特征后，现在可以继续使用各种监督学习的分类回归算法。

4.3 isolationforestisolationforest (以下简称IForest )是异常点检测的方法。使用类似射频的方法检测异常点。

对于t个决策树的样本集，IForest也随机对训练集进行采样，但样本数目不必与RF相同，而对于RF，在样本集中需要采样的样本数目等于训练集的数目。但是IForest不需要那么采样。一般来说，采样数是否远远少于训练集数？为什么呢？因为我们的目的是检测异常点，所以只需要样品的一部分就可以正常地识别异常点。

对于每一个决策树的建立， IForest采用随机选择一个划分特征，对划分特征随机选择一个划分阈值。这点也和RF不同。

　　　　另外，IForest一般会选择一个比较小的最大决策树深度max_depth,原因同样本采集，用少量的异常点检测一般不需要这么大规模的决策树。

5. 随机森林小结

　　　　RF的算法原理也终于讲完了，作为一个可以高度并行化的算法，RF在大数据时候大有可为。这里也对常规的随机森林算法的优缺点做一个总结。

　　　　RF的主要优点有：

　　　　1）训练可以高度并行化，对于大数据时代的大样本训练速度有优势。个人觉得这是的最主要的优点。

　　　　2）由于可以随机选择决策树节点划分特征，这样在样本特征维度很高的时候，仍然能高效的训练模型。

　　　　3）在训练后，可以给出各个特征对于输出的重要性

　　　　4）由于采用了随机采样，训练出的模型的方差小，泛化能力强。

　　　　5）相对于Boosting系列的Adaboost和GBDT， RF实现比较简单。

　　　　6）对部分特征缺失不敏感。

　　　　RF的主要缺点有：

　　　　1）在某些噪音比较大的样本集上，RF模型容易陷入过拟合。

　　　　2) 取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果。