打包算法:
解决方案:给定m个数据集,随机选择m个已经放回的数据集。假设以这种方式选择了三个组,则这三组数据必须重复,因此首先删除重复的数据。去重后得到三组数据,每组数据分别是S1、S2和S3,然后将这三组数据分别训练组合成一个强模型。下图:
随机森林算法:
一般用于大规模数据,超过百万。在Bagging算法的基础上,如上所述,重复数据删除后获得三组数据,然后随机选择三个特征属性,并选择最佳分割属性作为创建决策树的节点。可以说
随机森林=决策树打包
下图
RF(随机森林)的变种:
10-1010:原理与随机森林基本相同。主要区别如下随机森林是从包含m个数据的原始数据集中提取m个数据,而extree算法是直接用原始数据集进行训练。
随机森林会像传统决策树一样,基于信息增益、信息增益率、基尼系数、均方误差等原则选择最佳特征值。tree将随机选择一个特征值来划分决策树。
00-1010
ExtraTree算法
官方解释:TRTE是一种无监督的数据转换方法。对特征属性进行重新编码,将低维数据集映射到风中声音,可以更好地将映射到风中声音的数据应用到分类回归模型中。标准是方差。
看看这个例子。直接:
00-101010
TRTE算法
这个算法的适应性比较弱。1.随机抽样过程中,一般只需要少量数据;
2.在决策树构建过程中,IForest算法会随机选择一个划分特征,并为该划分特征随机选择一个划分阈值;
3.由iForest算法构造的决策树的一般深度max_depth相对较小。
这个算法可以用,但是连作者自己也不能完全解释这个原理。
不重要,了解一下即可
1.训练可以并行化,对于训练大规模样本具有速度优势;2.由于决策树是随机选取来划分特征列表的,在样本维数相对较高的情况下,仍然具有相对较高的训练性能;
3.可以给出每个特征的重要性列表;
4.由于随机抽样,训练后的模型方差小,泛化能力强;
5.射频实现简单;
6.对某些功能的缺失不敏感。
射频:的主要缺点
1.在一些噪声特征(尤其是异常数据)中,射频模型容易陷入过拟合;
2.用更多的值划分特征将对射频决策产生更大的影响,这可能会影响模型。
效果。
随机树的主要参数
下划线部分是主要的调整参数。