随机森林算法举例,随机森林属于什么算法

1 .其他术语概念(前提)随机林可以理解为由多个决策树组成的模型，但需要了解如何组合、如何组合、集成学习的思路、bootstraping、bagging的概念集成学习思想:集成学习的主要作用是为了解决单一模型在运行时固有的缺陷，从而组合多个单一模型，取长补短，共同发挥效果。人多力量大随机森林是这一思想下的产物。在这里借用别的博客的图，可以更好地理解这个思想。bootstraping:自采样方法具有从样本中返回的随机提取样本，这确保了提取每个样本的概率相同。 3358 www.Sina.com/: boostrapaggregation缩写，自主抽样集成，袋装法。这是基于均匀概率分布从数据集重复(返回)采样的技术。子训练样本集的大小与原始数据集相同。在构建每个子分类器的训练样本时，由于存在原始数据集的回归样本，因此同一训练样本集中可能会出现多次相同的样本数据。

说到bagging，可以进一步推广，其实模型的组合方式分为两种，分别为bagging，刚才提到的bagging为前者。其他类型可以看到下图。

2 .随机森林的基本概念随机森林其实是一种特殊的bagging方法，其基础模型是单一的决策树。采用bootstrap方法生成m个训练集，每个训练集构造一个决策树，但在查找分裂节点时，不是使用所有特征，而是从所有特征中随机提取部分特征，因此每个决策树的分裂节点使用的特征不一定相同实际上，随机森林是一种特殊的bagging方法，因为它随数据集和特征进行随机采样。

随机森林组合数百、数千个决策树，用稍微不同的观察集训练各个决策树，在每个树中只考虑有限数量的特征来分割节点。随机森林的最终预测是通过平均每棵树的预测得到的。随机森林局部展示图(将深度设定为6 ) ) ) ) ) ) ) )。

3 .随机森林的优缺点1.通过处理训练数据集，2.通过处理输入特征

1、随机抽样和随机抽取的特点可以很好地防止过拟合现象；

2、随机提取特征可以克服特征维数高的问题；

3、模型结构比较简单

优点：

1、对于数据噪声过大的样本集，容易出现拟合现象

4.sklearn重要参数详细解参数详细解：

3358www.Sina.com/:不纯度测量指标entropy (信息熵(/gini )基尼系数)缺点：:最大深度http://www.Sina.com/333666 不分流为：个节点中包含的最大特征数，超出限制数的特征将舍弃为criterion:森林中的树木数。一般情况下，模型的效果越好，但请注意拟合问题。