首页 > 编程知识 正文

随机森林算法流程图,随机森林算法公式

时间:2023-05-04 17:14:10 阅读:24404 作者:618

随机森林的算法原理:

也就是说,是基于bagging法CART算法的决策树的结合。

http://www.Sina.com/f=http://www.Sina.com/fully-growncartdecisiontree

bagging方法的核心: bootstrap从原始数据集d中选择几个子数据集Dt,对子数据集分别进行决策树生成。

随机森林的优点:

可并行计算(子集训练相互独立)效率高,继承了CART算法的优点(用Gini系数选择最佳特征和分割点),降低了完全生成树的弊端)。由于完全生成树过于复杂,Ein小,Eout大如果不与bagging结合,决策树训练必须先进行剪枝,而射频不需要剪枝,bagging法不会使各子集的决策树过于复杂)误差eoob(outofbag袋外误差) )。

在此浏览博客:

作者:快乐的飞熊

链接: https://www.Jian Shu.com/p/b 94e C2 fc 345d

资料来源:简本

在随机林bagging方法中,发现booststrap每次约有1/3的样本不出现在bootstrap收集的样本集合中,因此没有参与决策树的建立。 这些数据称为口袋外数据oob,用于代替测试集的误差估计方法,可用于模型的验证。 (优点是不需要另外划分验证集,直接将袋外数据作为验证数据,在模型训练时计算出误差。 即袋外误差)

首先,对oob的使用进行说明。 其中,(x,y )表示输入的示例,而label和g表示构建的树。

上图中的(xN,yN )未用于g2、g3、gt,因此) xN,yN可以作为g2、g3、gt的验证数据。 然后,将该oob数据作为输入输入到模型中进行投票。 少数服从多数。

同样,(x1、y1 )、(x2、y2 ) )等也存在同样的计算,最终计算评价错误的样本占有率为oob-error。

所以oob可以用来衡量射频模型的好坏。

另外,还可以挖掘随机森林输出特征的重要性原理:如果特征I对模型有利,用随机值替换第I维特征,会降低模型性能,即,增大oob-error。

根据该原理,可以去除R,即冗馀且相关性差的特征。 (也称为置换试验)

导入(I )=Eoob(G ) g )- Eoob^p(G ) g )

其中,Eoob ̄p(g )是置换了第I维特征值的数据集的Eoob。

结束

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。