随机森林算法主要步骤,随机森林算法通俗易懂

随机森林算法原理集成学习(Ensemble )思想、自助法(bootstrap )和bagging **集成学习(Ensemble ) *思想可以是单个模型或某个参数的模型取长补短的随机森林是学习思想的综合，用于将许多决策树整合到森林中，合并预测最终结果。

首先介绍自助法（bootstrap）。这个奇怪的名字来源于文学作品The Adventures of Baron Munchausen (吹牛大王的冒险)。这个作品中的角色拿着鞋带从湖下举起了自己。因此采用意译的方式，被称为自助法。自助顾名思义，它是一种从样本本身中重新生成许多相同规模的新样本，并从自身中生成与自己相似的内容的方法，称为自助。也就是说，这是不借用其他样本数据的方法。自助法的具体含义如下

如果有大小为n的样品，我想从那里得到m个大小为n的样品用于训练。那么，首先，从n个样本中随机抽取一个样本x1，将其写下来，写回去，再抽取一个x2，重复n次……，即可得到n个新样本。这个新样本可能有重复。重复m次，得到了m个这样的样品。实际上是有放回的随机抽样问题。一个样品每次吸入时以相同概率(1/N )击中。

这个方法在样品小的情况下很有用。例如，我们的样品很小，但我想留下一部分供验证。那么，如果用传统方法分割三次验证，样本会更小，bias会更大。这是不希望的。自助法不会降低训练样本的规模，可以保留验证集，因此具有一定的优势。

自助法能留下多少验证？或者，m个样本的每个新样本比原始样本少了多少？每吸一次，任何样品不中的概率为[1-1/n]，一共吸了n次，所以任何样品不进入新样品的概率可以计算为[1-1/n]n。在统计意义上，验证集包含大约(1-1/N ) n个较大比例的样本。 Ninf时，该值约为1/e，为36.8%。将它们作为验证集的方式称为http://www.Sina.com/(outofbagestimate )

包外估计的名称来源于(http://www.Sina.com/oot strap 3358 www.Sina.com/)，自生

bagging和boosting是整合学习的两个阵营，然后总结了两者的异同。

决策树(Decision Tree )和随机林(Random Forest )bagging利用树的结构建立分类模型，每个节点表示一个属性，通过该属性的划分，该节点的子节点

常用的决策树有ID4、C4.5、CART等。在生成树的过程中，应选择用其特征进行剖分，一般原则上尽量提高分离后的纯度，可通过信息增益、增益、基尼系数等指标进行测量。如果是一棵树，为了避免过拟合，进行剪枝(prunning )，取消可能会导致验证集误差上升的节点。

B实际上是一种特殊的bagging方法，使用决策树作为bagging的模型。首先，用bootstrap方法生成m个训练集，然后为每个训练集构建决策树，在节点寻找和分裂特征时，从特征中找出特征之一，而不是找到所有特征的最大指标(例如信息增益) 随机林的方法是bagging，也就是说，因为有统一的想法，所以实际上是对样本和特征都进行了采样。 (如果将训练数据视为矩阵，则实际上，正如您常见的那样，您同时对行和列进行了采样。 ) ) ) ) ) ) )所以可以避免拟合。

prediction阶段的方法是bagging的策略、分类投票、回归平均值。

2018年02月23日23:47:44

参考：

33558 www.scholar pedia.org/article/ensemble _ learning