首页 > 编程知识 正文

随机森林算法举例,随机森林属于什么算法

时间:2023-05-06 17:09:54 阅读:24403 作者:3942

1 .其他术语概念(前提)随机林可以理解为由多个决策树组成的模型,但需要了解如何组合、如何组合、集成学习的思路、bootstraping、bagging的概念集成学习思想:集成学习的主要作用是为了解决单一模型在运行时固有的缺陷,从而组合多个单一模型,取长补短,共同发挥效果。人多力量大随机森林是这一思想下的产物。 在这里借用别的博客的图,可以更好地理解这个思想。bootstraping:自采样方法具有从样本中返回的随机提取样本,这确保了提取每个样本的概率相同。 3358 www.Sina.com/: boostrapaggregation缩写,自主抽样集成,袋装法。 这是基于均匀概率分布从数据集重复(返回)采样的技术。 子训练样本集的大小与原始数据集相同。 在构建每个子分类器的训练样本时,由于存在原始数据集的回归样本,因此同一训练样本集中可能会出现多次相同的样本数据。

说到bagging,可以进一步推广,其实模型的组合方式分为两种,分别为bagging,刚才提到的bagging为前者。 其他类型可以看到下图。

2 .随机森林的基本概念随机森林其实是一种特殊的bagging方法,其基础模型是单一的决策树。 采用bootstrap方法生成m个训练集,每个训练集构造一个决策树,但在查找分裂节点时,不是使用所有特征,而是从所有特征中随机提取部分特征,因此每个决策树的分裂节点使用的特征不一定相同实际上,随机森林是一种特殊的bagging方法,因为它随数据集和特征进行随机采样。

随机森林组合数百、数千个决策树,用稍微不同的观察集训练各个决策树,在每个树中只考虑有限数量的特征来分割节点。 随机森林的最终预测是通过平均每棵树的预测得到的。 随机森林局部展示图(将深度设定为6 ) ) ) ) ) ) ) )。

3 .随机森林的优缺点1.通过处理训练数据集,2.通过处理输入特征

1、随机抽样和随机抽取的特点可以很好地防止过拟合现象;

2、随机提取特征可以克服特征维数高的问题;

3、模型结构比较简单

优点:

1、对于数据噪声过大的样本集,容易出现拟合现象

4.sklearn重要参数详细解参数详细解:

3358www.Sina.com/:不纯度测量指标entropy (信息熵(/gini )基尼系数)缺点::最大深度http://www.Sina.com/333666 不分流为:个节点中包含的最大特征数,超出限制数的特征将舍弃为criterion:森林中的树木数。 一般情况下,模型的效果越好,但请注意拟合问题。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。