首页 > 编程知识 正文

boosting bagging(stacking算法)

时间:2023-05-04 08:45:38 阅读:101722 作者:1497

打包算法:

解决方案:给定m个数据集,随机选择m个已经放回的数据集。假设以这种方式选择了三个组,则这三组数据必须重复,因此首先删除重复的数据。去重后得到三组数据,每组数据分别是S1、S2和S3,然后将这三组数据分别训练组合成一个强模型。下图:

随机森林算法:

一般用于大规模数据,超过百万。

在Bagging算法的基础上,如上所述,重复数据删除后获得三组数据,然后随机选择三个特征属性,并选择最佳分割属性作为创建决策树的节点。可以说

随机森林=决策树打包

下图

RF(随机森林)的变种:

10-1010:原理与随机森林基本相同。主要区别如下

随机森林是从包含m个数据的原始数据集中提取m个数据,而extree算法是直接用原始数据集进行训练。

随机森林会像传统决策树一样,基于信息增益、信息增益率、基尼系数、均方误差等原则选择最佳特征值。tree将随机选择一个特征值来划分决策树。

00-1010

ExtraTree算法

官方解释:TRTE是一种无监督的数据转换方法。对特征属性进行重新编码,将低维数据集映射到风中声音,可以更好地将映射到风中声音的数据应用到分类回归模型中。

标准是方差。

看看这个例子。直接:

00-101010

TRTE算法

这个算法的适应性比较弱。

1.随机抽样过程中,一般只需要少量数据;

2.在决策树构建过程中,IForest算法会随机选择一个划分特征,并为该划分特征随机选择一个划分阈值;

3.由iForest算法构造的决策树的一般深度max_depth相对较小。

这个算法可以用,但是连作者自己也不能完全解释这个原理。

不重要,了解一下即可

1.训练可以并行化,对于训练大规模样本具有速度优势;

2.由于决策树是随机选取来划分特征列表的,在样本维数相对较高的情况下,仍然具有相对较高的训练性能;

3.可以给出每个特征的重要性列表;

4.由于随机抽样,训练后的模型方差小,泛化能力强;

5.射频实现简单;

6.对某些功能的缺失不敏感。

射频:的主要缺点

1.在一些噪声特征(尤其是异常数据)中,射频模型容易陷入过拟合;

2.用更多的值划分特征将对射频决策产生更大的影响,这可能会影响模型。

效果。

随机树的主要参数

下划线部分是主要的调整参数。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。