首页 > 编程知识 正文

公报的特点,广播电台英语

时间:2023-05-05 14:37:05 阅读:258025 作者:37

什么是GBDT?

GBDT(梯度提升树),是一个以回归树为基学习器,以boost为框架的加法模型的集成学习。

 

GBDT基于GB算法。GB算法的主要思想是,每次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数是评价模型性能(一般为拟合程度+正则项),认为损失函数越小,性能越好。而让损失函数持续下降,就能使得模型不断调整提升性能,其最好的方法就是使损失函数沿着梯度方向下降。GBDT再此基础上,基于负梯度(当损失函数为均方误差的时候,可以看作是残差)做学习。

 

在分类问题中,GBDT的损失函数跟逻辑回归一样,采用的对数似然函数。

在回归问题中,GBDT采用最小化误差平方(ls)。在每一个叶子节点都会得到一个预测值,该预测值等于属于这个节点的所有label的均值。分枝时穷举每一个feature的每个阈值找最好的分割点,衡量的标准就是用最小化误差平方。

 

剪枝

 

 

利用GBDT求特征的重要度

 

 

利用GBDT构造新的特征

输入特征通过增强的决策树进行转换。每个单独树的输出被视为稀疏线性分类器的分类输入特征。增强的决策树被证明是非常强大的特征转换。以下图为例,

对于输入x,假设他落在左子树第一个节点,编码[1,0,0],落在右树第二个节点则编码为[0,1],所以整体编码为[1,0,0,0,1],这类编码作为特征,输入到线性分类模型(LR or FM)中进行分类。

 

利用GBDT+LR解决CTR预估问题

CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用得最多的模型就是LR。LR这种线性模型很容易并行化,处理上亿条训练样本不是问题,但线性模型学习能力有限,需要大量特征工程预先分析出有效的特征、特征组合,从而去间接增强LR的非线性学习能力。

 

Facebook在2014年的文章中介绍了通过GBDT解决LR的特征组合问题,随后Kaggle竞赛也有实践此思路,GBDT与LR融合开始引起了业界关注。

 

为什么建树采用GBDT而非RF?

RF也是的多棵树,但从效果上有实践证明不如GBDT。GBDT特征分裂主要体现对多数样本有区分度的特征;后面的树,主要体现的是经过前n棵树,残差仍然较大的少数样本。优先选用在整体上有区分度的特征,再选用针对少数样本有区分度的特征,思路更加合理,这应该也是用GBDT的原因。

 

GBDT与LR融合方案

AD ID类特征在CTR预估中是非常重要的特征,直接将AD ID作为feature进行建树不可行,所以考虑每个AD ID建GBDT树。但互联网时代长尾数据现象非常显著,广告也存在长尾现象,为了提升广告整体投放效果,不得不考虑长尾广告。在GBDT建树方案中,对于曝光充分训练样本充足的广告,可以单独建树,发掘对单个广告有区分度的特征。但对于曝光不充分样本不充足的长尾广告,无法单独建树,需要一种方案来解决长尾广告的问题。

 

综合考虑方案如下,使用GBDT建两类树,非ID建一类树,ID建一类树。1.非ID类树:不以细粒度的ID建树,此类树作为base,即便曝光少的广告、广告主,仍可以通过此类树的得到有区分性的特征、特征组合。2.ID类树:以细粒度的ID建一类树,用于发现曝光充分的ID对应有区分性的特征、特征组合。

 

如何根据GBDT建的两类树,对原始特征进行映射?

当一条样本x进来之后,遍历两类树到叶子节点,得到的特征作为LR的输入。当AD曝光不充分不足以训练树时,其它树恰好作为补充。

通过GBDT生成的特征,可直接作为LR的特征使用,省去人工处理分析特征的环节,LR的输入特征完全依赖于通过GBDT得到的特征。此思路已尝试,通过实验发现GBDT+LR在曝光充分的广告上确实有效果,但整体效果需要权衡优化各类树的使用。

 

参数

1.一般推荐GBDT的深度为6,决策树和RF一般需要调到15或更高

2.论文中树的个数最多500棵,500以上就没有提升了

3.GBDT通过正则化,避免模型过于复杂

 

参考

GBDT:梯度提升决策树:https://zhuanlan.zhihu.com/p/30654833

GBDT原理及利用GBDT构造新的特征-Python实现:https://blog.csdn.net/shine19930820/article/details/71713680#3-gbdt%E4%B8%8Elr%E8%9E%8D%E5%90%88%E6%96%B9%E6%A1%88

CTR预估中GBDT与LR融合方案:https://blog.csdn.net/lilyth_lilyth/article/details/48032119

GBDT算法的特征重要度计算:https://blog.csdn.net/kqdwt/article/details/53899260

大话机器学习之GBDT:https://zhuanlan.zhihu.com/p/32156992

GBDT算法用于分类问题:https://zhuanlan.zhihu.com/p/46445201

 

拓展

阿里妈妈的MLR模型:http://zhuanlan.51cto.com/art/201706/542659.htm

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。