这门课的内容和截图都来自学堂在线
Ensemble learning
民主协商、综合学习
有很多分类器,有时也称为多分类系统
综合学习,一个输入,被给予多个分类器,结合他们的结果
群策群议不同的学习算法(DT、SVM、NN、KNN ) )。
不同的训练过程(不同的训练集、特征集、参数)。
Bootstrap Sample (有返回的样品) )。
决策树必须不同
随机森林)。
引导聚合(bagging )。
将选择三分之二的元素并生成决策树
剩下的三分之一,进行测试
RF主功能
找一部分元素,比如说有100个,就加上根号,可以取10个
RF Advantage
Boosting在不同的分类器上有不同的性能,所以应该有不同的权重
能够降低因训练样本不同而引起的训练效果
暴走之王
将每一个输出作为输入再训练一次,得到输出; 算法流程
从C1放到D中测试一次,看那些点对,哪些点错
选择正确和错误的做D2,让C2主要学习错误的东西
选出C1和C2的结果不一致的,组成D3,让C3学习
在使用时,如果c1c2的结果一致,则从c1c2c3的三个分类器中输出其一,如果不一致,则选择c3的结果
3358www.Sina.com/AdaBoost的正确解释是:
能够合并训练误差任意低分类器
基础分类器是任意弱(准确率超过50% ) ) ) ) ) ) ) ) ) )。
通过对样本进行加权,具有改变训练集效果
好处:
很容易实现
几乎不需要调整参数
证明训练集的上限
克服过拟合
坏处:
是局部最优的
最速下降
对噪声敏感
AdaBoost
本来想把k个z相乘的乘方最小化,但是这个很难实现。 所以采取近似的措施,将现在的z最小化
最终导出1r2(sqrt(1-r^2) 1r2,这个公式的值总是(0,1 ),进行大量的乘法运算,变得越来越小
的选择
有两个分类器,一个用于分类原始标签,另一个用于分类结果(区分正确还是错误)。
RegionBoost
什么是综合学习?
非常战略地生成一组分类器,然后非常战略地将它们结合在一起
bagging并行boosting串行
简单的少数服从多数或附加权重