随机森林算法流程图,随机森林算法公式

随机森林的算法原理：

也就是说，是基于bagging法CART算法的决策树的结合。

http://www.Sina.com/f=http://www.Sina.com/fully-growncartdecisiontree

bagging方法的核心： bootstrap从原始数据集d中选择几个子数据集Dt，对子数据集分别进行决策树生成。

随机森林的优点：

可并行计算(子集训练相互独立)效率高，继承了CART算法的优点(用Gini系数选择最佳特征和分割点)，降低了完全生成树的弊端)。由于完全生成树过于复杂，Ein小，Eout大如果不与bagging结合，决策树训练必须先进行剪枝，而射频不需要剪枝，bagging法不会使各子集的决策树过于复杂)误差eoob(outofbag袋外误差) )。

在此浏览博客：

作者：快乐的飞熊

链接： https://www.Jian Shu.com/p/b 94e C2 fc 345d

资料来源：简本

在随机林bagging方法中，发现booststrap每次约有1/3的样本不出现在bootstrap收集的样本集合中，因此没有参与决策树的建立。这些数据称为口袋外数据oob，用于代替测试集的误差估计方法，可用于模型的验证。 (优点是不需要另外划分验证集，直接将袋外数据作为验证数据，在模型训练时计算出误差。即袋外误差)

首先，对oob的使用进行说明。其中，(x，y )表示输入的示例，而label和g表示构建的树。

上图中的(xN，yN )未用于g2、g3、gt，因此) xN，yN可以作为g2、g3、gt的验证数据。然后，将该oob数据作为输入输入到模型中进行投票。少数服从多数。

同样，(x1、y1 )、(x2、y2 ) )等也存在同样的计算，最终计算评价错误的样本占有率为oob-error。

所以oob可以用来衡量射频模型的好坏。

另外，还可以挖掘随机森林输出特征的重要性原理：如果特征I对模型有利，用随机值替换第I维特征，会降低模型性能，即，增大oob-error。

根据该原理，可以去除R，即冗馀且相关性差的特征。 (也称为置换试验)

导入(I )=Eoob(G ) g )- Eoob^p(G ) g )

其中，Eoob￣p(g )是置换了第I维特征值的数据集的Eoob。

结束