首页 > 编程知识 正文

数据挖掘算法与应用 孙家泽,如何学好数据挖掘

时间:2023-05-06 00:20:55 阅读:142160 作者:5

这门课的内容和截图都来自学堂在线

Ensemble learning

民主协商、综合学习

有很多分类器,有时也称为多分类系统

综合学习,一个输入,被给予多个分类器,结合他们的结果

群策群议不同的学习算法(DT、SVM、NN、KNN ) )。

不同的训练过程(不同的训练集、特征集、参数)。

Bootstrap Sample (有返回的样品) )。

决策树必须不同

随机森林)。

引导聚合(bagging )。

将选择三分之二的元素并生成决策树

剩下的三分之一,进行测试

RF主功能

找一部分元素,比如说有100个,就加上根号,可以取10个

RF Advantage

Boosting在不同的分类器上有不同的性能,所以应该有不同的权重

能够降低因训练样本不同而引起的训练效果

暴走之王

将每一个输出作为输入再训练一次,得到输出; 算法流程

从C1放到D中测试一次,看那些点对,哪些点错

选择正确和错误的做D2,让C2主要学习错误的东西

选出C1和C2的结果不一致的,组成D3,让C3学习

在使用时,如果c1c2的结果一致,则从c1c2c3的三个分类器中输出其一,如果不一致,则选择c3的结果

3358www.Sina.com/AdaBoost的正确解释是:

能够合并训练误差任意低分类器

基础分类器是任意弱(准确率超过50% ) ) ) ) ) ) ) ) ) )。

通过对样本进行加权,具有改变训练集效果

好处:

很容易实现

几乎不需要调整参数

证明训练集的上限

克服过拟合

坏处:

是局部最优的

最速下降

对噪声敏感

AdaBoost

本来想把k个z相乘的乘方最小化,但是这个很难实现。 所以采取近似的措施,将现在的z最小化

最终导出1r2(sqrt(1-r^2) 1r2,这个公式的值总是(0,1 ),进行大量的乘法运算,变得越来越小

的选择

有两个分类器,一个用于分类原始标签,另一个用于分类结果(区分正确还是错误)。

RegionBoost

什么是综合学习?

非常战略地生成一组分类器,然后非常战略地将它们结合在一起

bagging并行boosting串行

简单的少数服从多数或附加权重

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。