boosting bagging(stacking算法)

打包算法：

解决方案：给定m个数据集，随机选择m个已经放回的数据集。假设以这种方式选择了三个组，则这三组数据必须重复，因此首先删除重复的数据。去重后得到三组数据，每组数据分别是S1、S2和S3，然后将这三组数据分别训练组合成一个强模型。下图：

一般用于大规模数据，超过百万。

在Bagging算法的基础上，如上所述，重复数据删除后获得三组数据，然后随机选择三个特征属性，并选择最佳分割属性作为创建决策树的节点。可以说

随机森林=决策树打包

下图

10-1010:原理与随机森林基本相同。主要区别如下

随机森林是从包含m个数据的原始数据集中提取m个数据，而extree算法是直接用原始数据集进行训练。

随机森林会像传统决策树一样，基于信息增益、信息增益率、基尼系数、均方误差等原则选择最佳特征值。tree将随机选择一个特征值来划分决策树。

00-1010

官方解释：TRTE是一种无监督的数据转换方法。对特征属性进行重新编码，将低维数据集映射到风中声音，可以更好地将映射到风中声音的数据应用到分类回归模型中。

标准是方差。

看看这个例子。直接：

00-101010

这个算法的适应性比较弱。

1.随机抽样过程中，一般只需要少量数据；

2.在决策树构建过程中，IForest算法会随机选择一个划分特征，并为该划分特征随机选择一个划分阈值；

3.由iForest算法构造的决策树的一般深度max_depth相对较小。

这个算法可以用，但是连作者自己也不能完全解释这个原理。

1.训练可以并行化，对于训练大规模样本具有速度优势；

2.由于决策树是随机选取来划分特征列表的，在样本维数相对较高的情况下，仍然具有相对较高的训练性能；

3.可以给出每个特征的重要性列表；

4.由于随机抽样，训练后的模型方差小，泛化能力强；

5.射频实现简单；

6.对某些功能的缺失不敏感。

射频：的主要缺点

1.在一些噪声特征(尤其是异常数据)中，射频模型容易陷入过拟合；

2.用更多的值划分特征将对射频决策产生更大的影响，这可能会影响模型。

效果。

随机树的主要参数

下划线部分是主要的调整参数。