简述随机森林算法基本思想,随机森林预测原理

本文介绍了用熵权法理解熵权法公式的决策树原理，以及Python实现bagging的原理。介绍了一个最傻逼店员用回归树算法简单、傻逼店员用预测器实现线性回归器的简单例子

熵权法介绍

熵定义：熵权法是计算指标权重的经典算法之一，是指判断一个指标离散度的数学方法。它和化学中的概念一样，是指物体内部的混乱程度。混乱程度(纯度)低的话熵值小，相反！

查了很多文献后，熵的解读似乎很高级，现在陈述自己的理解

理解熵法式熵值公式链接

决策树和随机森林的学习笔记

为什么要使用-p*log(p )这个表达式？

这个问题暂且放下，让我们来看看下面的问题吧

假设在只能放8个分子的箱子里放了8个分子。如果容器有间隙，分子就会随意乱飞。系统的熵值原本表示物体内部的混乱程度。此时，可以用公式求出系统的总熵值为0。 (0乘以log函数无限接近0时，值为0。同样，如果箱子里没有分子，总熵值也是0。

此时，考虑到容积为4个分子的器皿中有2个分子，容积为8个器皿中有4个分子，熵是否相同，当然是一样的。他们的总熵都是1，也就是说他们都是最极端混乱的状态。

注：在容积8的器皿中放入5个分子和3个分子，他们的混乱状态是一样的

在同一系统中，熵值满足可加性，熵值是相对属性，不要混淆不同系统的熵值

-使用-p*log(p )这个表达式是什么？他满足以下条件，可以自己试着去除一些参数，看看是否满足。熵公式必须满足系统的以下特征：

1 :连续性

这个尺度必须是连续的，概率值稍微变化只会引起熵的微小变化。

2 )对称性

符号xi排序后，这个尺度必须保持不变。这也是我们可以归一化、归一化矩阵参数的原因。这是因为无论如何变化，行向量的混乱程度都不会变化

3 )加成性

熵的量与过程如何分割无关

4 )极值性

如果所有符号都有同等机会，则熵将达到最大值(所有可能的事件都有同等概率且不确定性最高)。

熵算法示例

因为上面的链接大神详细说明了，所以我就简单坐下来说明一下熵算法：

比较表中的整个第一列，可以看到第一列有三个属性。

indexagebuys_computer0[youth，youth，youth，youth][yes，yes，no，no，no]1[middle，middle，middle age由三个箱子组成，每个箱子里有[ 2，4，3 ]个分子，可以说是最后集成在一个箱子里的系统

系统的第一个熵值：

最终合并成一个系统后的熵：

其余列的增益可以从链接文档中看到。

简单来说，系统的状态变化越大，熵的变化量越大，代表列越复杂，信息量也越多，对输出结果的影响也越大，决策树中的层次也越高。

决策树原理和Python实现决策树的原理和实现链接1

决策树原理与实现链接2

bagging原理集成学习有两个流派，一个是boosting派，其特征是各个弱学习器之间存在依存关系。另一个是bagging流派，其特征是各个弱学习器之间没有依存关系。从下图可以看出，bagging的弱学习器之间没有类似boosting的联系。其特征在于“随机抽样”。那么什么是随机抽样？

随机采样(bootsrap )是指从我们的训练集中提取固定数量的样本，但每次采样后都会返回样本。也就是说，以前采集的样品在放回后也有可能继续采集。在我们的Bagging算法中，通常随机采集与样本数m相同数量的样本进行训练。这样得到的样本集和训练集中的样本数量相同，但样本内容不同。如果对有m个样本的训练集进行t次随机采样，则由于随机性，t个样本集各不相同。

请注意，这与GBDT的子采样不同。 GDT的子采样是无倒带采样，而Bagging的子采样是倒带采样。

对于一个样本，它是训练集的随机采样，每一次采集的概率为1/m，训练集有时包含m个样本。不被采集的概率为1/m1。 m次采样也未采集的概率为(11/m ) ^m

m时，(11/m ) ^m1e0.368。也就是说，在bagging每一轮的随机采样中，约36.8%的训练集数据没有收集到采样集中。

这一部分约36.8%的未采样数据通常被称为袋外数据(简称为Out Of Bag、OOB )。这些数据不参与训练集模型的匹配，因此可以用于检测模型的泛化能力。

最萌的店员实现了不想用回归树算法看这很多公式，跳过去看下面的内容

一个简单的最白痴店员坐上了预数据，上面图1的简单方程，我们构建两组数据。

两个方程的参数分别接近[1、2、3、4、5]、(1、2、2、4、5]

我们可以自己加入。只有最后一组的数据有点

偏差（16—>15, 15---->14)

X1 = np.array([[-2,-1,0,1,2],[-1,0,1,2,3],[1,1,1,0,0],[1,1,0,1,0],[1,0,0,0,1],[1,1,1,1,1]])X2 = np.array([[1,0,0,2,1],[-1,0,2,1,1],[-3,1,2,0,0],[-4,2,0,1,1],[1,1,0,0,0],[1,1,1,1,1]])Y1 = np.array([[10],[25],[6],[7],[6],[16]])Y2 = np.array([[14],[12],[3],[9],[3],[15]])X = np.vstack((X1,X2))Y = np.vstack((Y1,Y2))

这时我们可以得到两个2维（我们用几个下标可以把X表示出来，可以用X.ndim算出) 简单方程，2*6组数据5个系数：

class Least_square: def __init__(self): self.param = np.array([]) self.Y = np.array([]) def fit(self, X, Y): X_T = X.transpose() self.param = np.dot(np.dot(np.linalg.inv(np.dot(X_T,X)),X_T),Y) self.Y = Y return self.param def predict(self,X): result = np.dot(X,self.param) var = np.var(self.Y - result) return result, var least_instance = Least_square()param = least_instance.fit(X,Y)result,var = least_instance.predict(X) 线性回归器简单示例 from sklearn.linear_model import LinearRegressionregression = LinearRegression()param = regression.fit(X, Y)score = regression.score(X,Y)result = regression.predict(X)