管理英语4titanic,xgboost全称

数据处理从高分码学到了许多表数据处理的方法，主要是如下方法。

fillnaNan确实值得嵌入大幅提高精度的数据。根据原始数据生成其他维连续数据转换，并逐步将连续数据转换为分类数据one-hot。 pandas.get_dummies ) )可以方便地实现分类数据的独立热编码算法的表数据集，在小数据量的情况下决策树家族的竞争力较高。进行了几种算法的比较使用，放在了Titanic-M.ipynb上。代码地址https://github.com/ashenwithoutfire/ka ggle-fastai.git。

性能比较算法KaggleScore优缺点xgbclassifier(Sklearn版本) 0.76555调参中，训练集准确率95%，训练不显示，速度快的XGBoost0.74880调参最佳调整训练显示，速度中RF ) )随机森林，sklearn版本) 0.0，速度快Fastai-tabular_learner0.75119调参较少，训练显示有图形，速度较慢

RF算法在同一数据下具有更好的性能。需要调整的参数较少，还有更大的优化空间，所以寻找最佳超级参数的可能性很高。唯一的缺点是没有训练loss显示，Kaggle也不提供测试集的实际示例标签，因此每天只有10次测试机会。 XGBoost算法在小规模数据集上过拟合严重，控制过拟合的参数多会产生相互影响。另外，伽马等参数变大时，过拟合会减轻，但收敛速度会变得相当慢，有时即使停留在局部最佳效果，也不及参试。这在Sklearn的版本中是未知的。因为看不到loss。盲数据量太小无法发挥性能。有些文章说，xgb在高维大数据量上性能很好。 Fastai-tabular_learner表示中的规则与决策树方法的差异是可接受的。可以自动找到学习率，盲的数据量太小无法发挥性能。