公报的特点,广播电台英语

什么是GBDT？

GBDT(梯度提升树)，是一个以回归树为基学习器，以boost为框架的加法模型的集成学习。

GBDT基于GB算法。GB算法的主要思想是，每次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能(一般为拟合程度+正则项)，认为损失函数越小，性能越好。而让损失函数持续下降，就能使得模型不断调整提升性能，其最好的方法就是使损失函数沿着梯度方向下降。GBDT再此基础上，基于负梯度(当损失函数为均方误差的时候，可以看作是残差)做学习。

在分类问题中，GBDT的损失函数跟逻辑回归一样，采用的对数似然函数。

在回归问题中，GBDT采用最小化误差平方(ls)。在每一个叶子节点都会得到一个预测值，该预测值等于属于这个节点的所有label的均值。分枝时穷举每一个feature的每个阈值找最好的分割点，衡量的标准就是用最小化误差平方。

剪枝

利用GBDT求特征的重要度

利用GBDT构造新的特征

输入特征通过增强的决策树进行转换。每个单独树的输出被视为稀疏线性分类器的分类输入特征。增强的决策树被证明是非常强大的特征转换。以下图为例，

对于输入x，假设他落在左子树第一个节点，编码[1,0,0]，落在右树第二个节点则编码为[0，1]，所以整体编码为[1，0，0，0，1]，这类编码作为特征，输入到线性分类模型(LR or FM)中进行分类。

利用GBDT+LR解决CTR预估问题

CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节，预估准确性直接影响公司广告收入。CTR预估中用得最多的模型就是LR。LR这种线性模型很容易并行化，处理上亿条训练样本不是问题，但线性模型学习能力有限，需要大量特征工程预先分析出有效的特征、特征组合，从而去间接增强LR的非线性学习能力。

Facebook在2014年的文章中介绍了通过GBDT解决LR的特征组合问题，随后Kaggle竞赛也有实践此思路，GBDT与LR融合开始引起了业界关注。

为什么建树采用GBDT而非RF？

RF也是的多棵树，但从效果上有实践证明不如GBDT。GBDT特征分裂主要体现对多数样本有区分度的特征；后面的树，主要体现的是经过前n棵树，残差仍然较大的少数样本。优先选用在整体上有区分度的特征，再选用针对少数样本有区分度的特征，思路更加合理，这应该也是用GBDT的原因。

GBDT与LR融合方案

AD ID类特征在CTR预估中是非常重要的特征，直接将AD ID作为feature进行建树不可行，所以考虑每个AD ID建GBDT树。但互联网时代长尾数据现象非常显著，广告也存在长尾现象，为了提升广告整体投放效果，不得不考虑长尾广告。在GBDT建树方案中，对于曝光充分训练样本充足的广告，可以单独建树，发掘对单个广告有区分度的特征。但对于曝光不充分样本不充足的长尾广告，无法单独建树，需要一种方案来解决长尾广告的问题。

综合考虑方案如下，使用GBDT建两类树，非ID建一类树，ID建一类树。1.非ID类树:不以细粒度的ID建树，此类树作为base，即便曝光少的广告、广告主，仍可以通过此类树的得到有区分性的特征、特征组合。2.ID类树:以细粒度的ID建一类树，用于发现曝光充分的ID对应有区分性的特征、特征组合。

如何根据GBDT建的两类树，对原始特征进行映射？

当一条样本x进来之后，遍历两类树到叶子节点，得到的特征作为LR的输入。当AD曝光不充分不足以训练树时，其它树恰好作为补充。

通过GBDT生成的特征，可直接作为LR的特征使用，省去人工处理分析特征的环节，LR的输入特征完全依赖于通过GBDT得到的特征。此思路已尝试，通过实验发现GBDT+LR在曝光充分的广告上确实有效果，但整体效果需要权衡优化各类树的使用。

参数

1.一般推荐GBDT的深度为6，决策树和RF一般需要调到15或更高

2.论文中树的个数最多500棵，500以上就没有提升了

3.GBDT通过正则化，避免模型过于复杂

参考

GBDT：梯度提升决策树:https://zhuanlan.zhihu.com/p/30654833

GBDT原理及利用GBDT构造新的特征-Python实现:https://blog.csdn.net/shine19930820/article/details/71713680#3-gbdt%E4%B8%8Elr%E8%9E%8D%E5%90%88%E6%96%B9%E6%A1%88

CTR预估中GBDT与LR融合方案:https://blog.csdn.net/lilyth_lilyth/article/details/48032119

GBDT算法的特征重要度计算:https://blog.csdn.net/kqdwt/article/details/53899260

大话机器学习之GBDT:https://zhuanlan.zhihu.com/p/32156992

GBDT算法用于分类问题:https://zhuanlan.zhihu.com/p/46445201

拓展

阿里妈妈的MLR模型:http://zhuanlan.51cto.com/art/201706/542659.htm