只要能解决实际问题,用什么工具学习数据挖掘都没关系。 在此按Python键。
我需要掌握Python的哪些知识? (推荐学习: Python视频教程)
1、Pandas库操作
Panda是一个对数据分析特别重要的库,需要了解以下三点:
pandas分组计算;
pandas索引和多索引;
索引很难,但非常重要
pandas多表操作和旋转透视表
2、数字计算
numpy数据计算的主要应用是数据挖掘,对于今后的机器学习、深度学习,这也是必须掌握的库,必须掌握以下内容。
Numpy array理解;
数组索引操作;
数组计算;
Broadcasting (线性代数中的知识) )。
3、数据可视化-matplotlib和seaborn
Matplotib语法
python最基本的可视化工具是matplotlib。 乍一看,Matplotlib和matlib有点相似,但如果弄清楚两者的关系是什么,学习就会更轻松。
使用 seaborn
seaborn是一个非常漂亮的可视化工具。
pandas绘图功能
pandas表示正在进行数据分析,但也提供了绘制的API。
4、数据挖掘初探
这部分是最难和有趣的部分,必须掌握以下部分。
机器学习定义
这里不区别于数据挖掘
成本函数的定义
Train/Test/Validate
Overfitting的定义和避免方法
5、数据挖掘算法
数据挖掘发展到现在,算法非常多。 以下只是掌握最简单、最核心、最常用的算法。
最gxdmf乘法算法;
坡度下降;
矢量化;
极有可能的估计;
逻辑注册;
诊断树;
RandomForesr;
XG boost;
6、数据挖掘实战
通过机器学习中最有名的库scikit-learn进行模型的理解。
有关更多Python相关技术文章,请参阅Python教程一栏进行学习。