首页 > 编程知识 正文

阿里巴巴的企业战略管理论文(关于阿里巴巴的论文)

时间:2023-05-05 22:47:27 阅读:88567 作者:4634

指南:在2月召开的网络搜索和数据挖掘会议WSDM上,阿里巴巴获得了WSDM Cup 2018的第二名。 从技术上解读了获奖论文。

预测方法

1 .介绍

KKBOX是一家亚洲音乐流媒体公司,拥有类似于Spotify和Apple Music的商业模式。 付费会员对音乐流媒体服务非常重要,不仅会影响订阅收入,还会间接影响广告收入。

这次比赛的目标是利用KKBOX的实际用户行为数据,预测会员是否流失。 比赛中,我们遇到了很多挑战。 例如正负样本不均衡、污染数据等问题。 为了解决这些问题,我们采取了一些措施,如建立数据清洗和交叉校验机制,以及使用堆叠模型提高精度等。

2 .问题的定义

这次比赛的目标是预测当月会员过期的用户中会有哪些流失。 这里的“流失”定义是,会员到期后30天内没有续费。

这次比赛的结果用Log Loss进行评价,Log Loss的计算公式如下。

式中,n表示测试样本数,

表示测试样品最终是否流出(1表示流出,0表示没有流出),

预测模型用户是否流失的概率。 取0-1的值。

3 .方法

考虑到模型的数据量和开发效率,采用了AlibabaCloud (阿里巴巴云)的DataWorks作为开发平台。

3.1数据预处理

比赛提供三个数据,分别为用户订单明细、听歌日志和人口统计学信息。 见下表:

脏数据问题,例如年龄数值小于0或大于100的、注册时间和支付金额中的极端异常值。 我们的脏数据处理方法包括根据分布将异常值转换为适当值,删除不可解释且不包含重要信息的数据。

在培训样本中,is_churn为样本的label,培训样本取自2017年2月和3月订阅过期的用户。 培训数据正负样本非常不均衡,以2月份过期的培训样本为例,共计992931份数据中,is_churn=1的样本为63471份,仅占6.4%。

传统的分类算法如决策树和逻辑回归要求正负样本比率。 采用欠采样方式处理训练样品,分别尝试1:3、1:5、1:8正负样品的配比,最终模型根据交叉验证的结果选择最佳配比。

3.2特色工程

在特征工程阶段,从计算逻辑、时间窗和附加条件三个维度组合数据。 如下图所示,右侧特征列表中的last_7_auto_tran_cnt表示最近7天(时间窗)自动完成的(附加条件)订单数量)计算逻辑。 特征组合完成后,进行log转换、one-hot编码等一系列处理。

我们通过交叉验证测试了特征的有效性。 交叉验证发现,最有效的特点是:1.最近60天或90天自动完成的订单数2、最近的交易是否取消或自动完成3 .账户登记的方式。 最终,提取了300多个特征,通过交叉验证的结果留下了204个特征。

3.3型号

我们利用两阶段模型预测了最终的径流情况。 如下图所示,在第一阶段,提取的特征被输入到逻辑回归、随机森林、XG boost三个模型中,第一阶段模型的输出被视为第二阶段的特征,最终成为Stacking Model。

如下图所示,采用了5-fold stacking战略。

第一阶段,将训练数据平均分为5部分,使用“一留法”训练5个逻辑回归模型,使用这5个模型分别预测剩下的1个训练数据和测试数据,合并5个预测的训练数据,从而生成新的训练数据newtraid 用平均法综合5个预测的测试数据,用得到新测试数据NewTestData的同样方法分别训练随机森林和XG boost,用新的训练和测试数据可以得到3个模型的分数。

第二阶段,以前一阶段的NewTraningData为训练数据,以NewTestData为测试数据,重新训练XG boost模型,得到最终的预测得分。 该方法可以避免过拟合,学习特征间组合的信息,提高预测的精度。

3.4模型评价

交叉验证不仅是特征筛选,也为模型阶段,调参、堆叠模型战略的调整提供依据。 下图显示了通过优化我们的各个步骤而得到的提高。 最初的LR模型可以得到0.2106的分数,XG提升和特征提取技术可以将分数提高到0.1151,最终Stacking Model和调参可以得到0.0934的分数。

4 .结论

本文介绍了在参加WSDM Cup 2018方面所做的实践,最终取得了第二名的成绩。 本文对数据预处理阶段的欠采样、特征提取方式、堆叠模型等几个重要的优化技术进行了阐述。 通过分析和测试发现,这些方法都可以提高预测的准确率。 然后,我们将测试更多的超级参数,并部署和优化深度学习。

论文原文地址:

359 WSDM-cup-2018.KKBox .事件/PDF/7 _物理_管道_ with _ stacking _ models _ for _ KBoxs

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。