数据挖掘算法与应用孙家泽,如何学好数据挖掘

这门课的内容和截图都来自学堂在线

Ensemble learning

民主协商、综合学习

有很多分类器，有时也称为多分类系统

综合学习，一个输入，被给予多个分类器，结合他们的结果

群策群议不同的学习算法(DT、SVM、NN、KNN ) )。

不同的训练过程(不同的训练集、特征集、参数)。

Bootstrap Sample (有返回的样品) )。

决策树必须不同

随机森林)。

引导聚合(bagging )。

将选择三分之二的元素并生成决策树

剩下的三分之一，进行测试

RF主功能

找一部分元素，比如说有100个，就加上根号，可以取10个

RF Advantage

Boosting在不同的分类器上有不同的性能，所以应该有不同的权重

能够降低因训练样本不同而引起的训练效果

暴走之王

将每一个输出作为输入再训练一次，得到输出；算法流程

从C1放到D中测试一次，看那些点对，哪些点错

选择正确和错误的做D2，让C2主要学习错误的东西

选出C1和C2的结果不一致的，组成D3，让C3学习

在使用时，如果c1c2的结果一致，则从c1c2c3的三个分类器中输出其一，如果不一致，则选择c3的结果

3358www.Sina.com/AdaBoost的正确解释是：

能够合并训练误差任意低分类器

基础分类器是任意弱(准确率超过50% ) ) ) ) ) ) ) ) ) )。

通过对样本进行加权，具有改变训练集效果

好处：

很容易实现

几乎不需要调整参数

证明训练集的上限

克服过拟合

坏处：

是局部最优的

最速下降

对噪声敏感

AdaBoost

本来想把k个z相乘的乘方最小化，但是这个很难实现。所以采取近似的措施，将现在的z最小化

最终导出1r2(sqrt(1-r^2) 1r2，这个公式的值总是(0，1 )，进行大量的乘法运算，变得越来越小

的选择

有两个分类器，一个用于分类原始标签，另一个用于分类结果(区分正确还是错误)。

RegionBoost

什么是综合学习？

非常战略地生成一组分类器，然后非常战略地将它们结合在一起

bagging并行boosting串行

简单的少数服从多数或附加权重

数据挖掘算法与应用 孙家泽,如何学好数据挖掘

数据挖掘算法与应用孙家泽,如何学好数据挖掘