阿里天池比赛入门,蚂蚁矿机二手交易市场

标题以预测二手车交易价格为任务，数据集注册后可视可下载。该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，从中抽取15万条作为训练组，5万条作为测试组a，5万条作为测试组b，同时对name、model、brand、regionCode等信息进行脱敏。

主题链接

代码链接

主题分析数据特征：数据特征共有31个特征，分类特征10个，数值特征21个，其中15个匿名特征均为数值特征数据量。训练集包含15万个数据，测试集包含5万个数据主题类型。是典型的回归问题的评价指标。平均绝对误差MAE在主题数据挖掘中，模型的可解释数据预处理缺失值数据集字段名称缺失数据量缺失率train model 16.67 e-6 trainbodytype 45063.004 % trainfueltype 86805.787 % trainbodytype 45063。 87 % trainnotrepaireddamage 2432416.216 % testbodytype 243243.008 % testfueltype 15045.848 % test gearbox 480323.936

缺失的特征——范畴型or连续型什么时候能用单数填充？类别类型，能用中位数填充吗？可以用连续型、随机森林填充吗？ (如果缺少的特征较少，且特征中有大量缺少的数据)为什么要用随机林来填充？

原因是回归问题是基于已知数据和目标数据之间存在内在联系这一系列已知数据来估计目标数据，如果将目标数据作为已知数据，也可以通过模型来估计缺失数据。如果缺少多个特征，如何用随机森林填充？

为什么从缺失值最少的开始填本问题的随机数填充和随机森林填充的效果不大？

由于本题缺失值均为分型特征，随机森林回归填充模型众数填充随机森林609.346606.129 XG boost 573.574576.835轻型GBM 496.775463.968异常

异常值处理

不正确的日期00月-07/01以计算车龄为目的，因为单位是以年为单位，所以在07月填补对结果影响不大的功率数据范围外，用最大值代替。预计在创建数据范围时不会合理地对功率数据进行分段。可能解释为为什么要铲斗化-提高鲁棒性(减少异常数据的影响) )评价二手车价格一般是在相同范围内的行驶距离和发动机

规范化、标准化、规范化的差异

归一化是将样本的特征值转换为同一维并将数据映射到[ 0，1 ]或[-1，1 ]区间，仅由变量的极值决定。因为区间简并法是正规化的一种。

归一化是按照特征矩阵列处理数据，通过求解z-score转化为标准正态分布，与整体样本分布相关，影响每个样本点的归一化。标准化后有正有负

正则化通过调整模型参数，也称为正则项，防止模型过度拟合

这些共同点都是可以消除维度差异引起的误差；都是一种线性变换，按比例压缩向量x并平移。

特征工程特征的创造

分散数据：

通过方差角度理解数据(方差较小(数据大致相同)所拥有的信息量较小)数据倾斜的方差过大-需要进一步分析语义-ID-挖掘)

2 .相关角度：各特征与预测值相关，相关系数接近0表明对预测值的影响较小

3 .正态分布和正态分布：靠左、靠右-去斜(log )因为许多模型的假设条件是正态分布建模

1 .为什么使用综合学习，选择综合学习的弱学习器，为什么综合学习使用弱学习器

弱学习器(比随机分配50%稍好)是为了通过模型间的差异性来提高综合学习模型的泛化能力

2 .集成学习选择bagging (随机森林)和boosting (boosting ) (由于XG boosting、XG boost的执行效率较低，所以选择LightGBM ) ) )。

3 .堆叠每层的作用是什么？参考

第一层提取有效特征，第二层学习有效特征是因为第二层不是原始数据，以这种方式减少模型的过拟合

4 .基于集成学习进行堆叠模型融合。为什么要进行堆叠？ Stacking第二层为什么要用简单的学习器？

1 )由于在特征提取过程中已经使用了复杂的学习器，对于输出层2 )不需要控制模型的复杂度

5 .将神经网络和Stacking预测结果相加求平均。一般的融合有哪些形式(分类：投票(为什么不使用加权平均)

1 )个人学习器性能差异较大时使用加权平均)权重需要在训练集中进行学习

6 .单纯的堆叠效果没有好的理由

我想是因为里面的子模型都是树模型，差异不大

7 .整合学习与模式融合的差异

整合学习：弱而不同的模式融合：强而不同。但是，合并学习并不是只能够合并弱学习器，也不是能够合并强学习器

reference [1] crisp-DM 1.0 step-by-stepdataminingguide.https://www.the-modeling-agency.com/crisp-DM.pdf

[2]周志华.机器学习[M] .北京：清华大学出版社，2016:171-190

[3]wqdjm .统计学习方法[M] .北京：清华大学出版社，2012:153-162

[4]cxdbbt .百面机器学习[M] .北京：人民邮电出版社，2018:273-288

参考代码