首页 > 编程知识 正文

管理英语4titanic,xgboost全称

时间:2023-05-06 09:10:36 阅读:155323 作者:4481

数据处理从高分码学到了许多表数据处理的方法,主要是如下方法。

fillnaNan确实值得嵌入大幅提高精度的数据。 根据原始数据生成其他维连续数据转换,并逐步将连续数据转换为分类数据one-hot。 pandas.get_dummies ) )可以方便地实现分类数据的独立热编码算法的表数据集,在小数据量的情况下决策树家族的竞争力较高。 进行了几种算法的比较使用,放在了Titanic-M.ipynb上。 代码地址https://github.com/ashenwithoutfire/ka ggle-fastai.git。

性能比较算法KaggleScore优缺点xgbclassifier(Sklearn版本) 0.76555调参中,训练集准确率95%,训练不显示,速度快的XGBoost0.74880调参最佳调整训练显示,速度中RF ) )随机森林,sklearn版本) 0.0,速度快Fastai-tabular_learner0.75119调参较少,训练显示有图形,速度较慢

RF算法在同一数据下具有更好的性能。 需要调整的参数较少,还有更大的优化空间,所以寻找最佳超级参数的可能性很高。 唯一的缺点是没有训练loss显示,Kaggle也不提供测试集的实际示例标签,因此每天只有10次测试机会。 XGBoost算法在小规模数据集上过拟合严重,控制过拟合的参数多会产生相互影响。 另外,伽马等参数变大时,过拟合会减轻,但收敛速度会变得相当慢,有时即使停留在局部最佳效果,也不及参试。 这在Sklearn的版本中是未知的。 因为看不到loss。 盲数据量太小无法发挥性能。 有些文章说,xgb在高维大数据量上性能很好。 Fastai-tabular_learner表示中的规则与决策树方法的差异是可接受的。 可以自动找到学习率,盲的数据量太小无法发挥性能。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。