数据挖掘工程师需要考证吗,数据挖掘工程师招标要求

数据挖掘，顾名思义，就是在数据中找到有用的东西。什么样的东西有用取决于具体的商业目标。最简单的是统计APP。例如，电子商务的数据。例如，我统计过淘宝在哪个省购买泳衣最多等。

此外，根据用户的浏览、点击、收藏、购买等行为来推断用户的年龄、性别、购买能力、兴趣等可以表示人的图像，就等于用这些挖掘出的属性来刻画人，这毕竟是最基本的

1、数据挖掘的过去

说到数据挖掘。经常离不开机器学习。例如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。

很多年前人工智能AI (比如发生式系统、专家系统等，现在好像比较少了)，90年代AI来到了瓶颈阶段，机器学习是突破口，现在机器学习又到了瓶颈阶段，深度学习又是突破口

第一，神经网络就像黑色的剪辑，很多东西都是不透明的，模型的解释力不强，以及当时无法处理非线性分类问题(后面的多层感知器可以拟合到XOR问题的解决等非线性问题) 参数过多、训练复杂、容易出错、易过拟合、不能保证全局最优、数学上不能证明的问题很多(个人理解)等。

科学家和工程师还是有区别的。科学家试图把一个问题归结为数学问题，并证明这一点。我觉得他们有意义。用数学证明其有效性往往比做千百个实验来说明其有效性要好吧。技术人员容易在意效果和结果)。

其次，多亏了目前的大规模计算工具，现在可以处理PB级别的数据。反正人工智能还没有达到人类的水平，最终会怎么样，这暂时还没有设想。

当前，在大数据时代，许多企业拥有巨大的数据。例如，阿里有消费数据，百度有搜索数据，腾讯有社交数据。消费数据和搜索数据可以直接变现形成商业模式，但社交数据还不能直接变现。至少企鹅现在正在探索中。比如，你的朋友圈、qq空间到处都是广告，你很讨厌吗？

如果有数据，还有另一个重要方面。处理数据的能力，也就是数据处理工具可以处理这么大的数据量。两者缺一不可。要说缺少什么大数据，那就是流氓。

2、数据挖掘工程师应具备的技能

首先数学知识很扎实吧。统计和概率论是基本的(有人说现在的机器学习是统计学习，但确实有道理)，微分和积分是一定要知道的，公式应该看懂吧，进阶优化，随机过程等等。我建议你去看看机器学习的10个算法和深度学习的东西，看看NBA的博客。

接下来，作为工程师，你应该能写代码吧。不写代码的工程师是胡说八道。不要写代码的数据挖掘和机器学习。那是个研究者，懂高级语言和脚本语言就行了。 (JAVA和C、Python和r等，个人推荐JAVA和Python。因为Hadoop、Spark、Hive、MPI等对JAVA很方便。您还需要知道Linux、shell和SQL。这都是个人意见。至少在蚂蚁中，我们使用javasqlpython shell。蚂蚁有一种很强的东西叫ODPS。现在被称为MaxCoupute。请在AlibabaCloud (阿里巴巴云)的官方网站上查询相关资料。

你说的excel、SAS、SPSS是数据分析者专用的。因为是工程师，所以编程语言还是需要的。

又是道具，能用就好了。对于是否需要学习hadoop、hive等，个人的意见是知道使用，知道如何使用，如何在上面实现一些算法，以及如何优化自己写的程序就可以了那些只是道具，而且更新得很快的话，就说hadoop吧。我还没有完全理解的时候，就渐渐被spark取代了。请记住。这些只是工具。我推荐能加深你数据挖掘实力的东西。 weka (独立版)和mahout (机器)是分布式的，有基于hadoop和spark的。它们都是开源的。

最后，对于工作中是否需要设计新算法，我认为企业还没有那么要求。除非你觉得自己很强硬，否则我会向谷歌学习。但是，能够设计出好的算法并解决实际问题的算法，并非一朝一夕。从个人观点来看，可以想到很多算法。最大的问题是如何证明其正确性，证明其效果。如果想去企业，多看看谷歌和ms的工程文章，想研究的话，多看看ICML、IJCAI、KDD、NIPS、CVPR等学术酷炫的战士文章。大部分工作是将现有的机器学习和数据挖掘算法应用于具体实践，根据业务场景和数据特点对算法进行改造或调整。

例如，在淘宝上买衣服，系统如何推荐感兴趣、与该衣服搭配的裤子和配件，这就是数据挖掘工程师的工作。

3、常用知识点介绍

至于数据挖掘和机器学习，也不是几百个字就能说清楚的，所以增加几个想从事机器学习和数据挖掘的应该学习的知识点：

1 )基本：

MSE (均方误差)、LMS (最小均方)、LSM )最大胆睫毛乘法)、MLE )最大似然估计)、QP )二次规划)、CP )条件概率)、JP )联合概率)、MP )边缘概率)；

贝叶斯公式(贝叶斯公式)、L1/L2 ) L1/L2正则、其他目前比较流行的L2.5正则等)；

GD (梯度下降)、SGD (随机梯度下降)、Eigenvalue )、Ei

genvector(特征向量)，QR-decomposition(QR分解)，Quantile (分位数)，Covariance(协方差矩阵)。

2）常见分布：

离散型分布：lcdyet分步/二项分布；负二项分布；多式分布；几何分布；超几何分布；泊松分

连续型分布：均匀分布；正态分布/火星上的小松鼠分布；指数分布；对数正态分布；Gamma分布；Beta分布；光亮的早晨分布；瑞利分布；柯西分布；韦伯分布

三大抽样分布：卡方分布；t-distribution；F-分布

3）数据预处理：

缺失值填充；离散化；映射；归一化/标准化)。

4）采样：

简单随机采样；离线等可能K采样；在线等可能K采样；等比例随机采样；接受-拒绝采样；重要性采样；马尔科夫蒙特卡罗采样算法。

5）聚类：

K-Means；K-Mediods；二分K-Means；FK-Means；Canopy；谱聚类；混合火星上的小松鼠模型-期望最大化算法解决；K-Pototypes；基于划分；基于层次；基于层次；基于密度；基于密度和基于网格；2014年Science上的密度聚类算法等。

6）聚类效果评估：

纯度；芮氏指标；调整的芮氏指标；规范化互信息；F测量等。

7）分类&回归：

线性回归；逻辑回归；多分类逻辑回归；广义线性模型；岭回归/L2正则最大胆的睫毛乘回归；正则最大胆的睫毛乘回归；随机森林；决策树；梯度下降决策树；分类回归树；近邻；支持向量机；核函数；多项式核函数；火星上的小松鼠核函数；径向基函数；字符串核函数；朴素贝叶斯；贝叶斯网络/贝叶斯信度网络/信念网络；线性判别分析；集成学习；自适应增强；最大熵模型。

8）分类效果评估：

混淆矩阵；精确度；召回率；准确率；F得分；ROC曲线；AUC面积；Lift曲线；KS曲线。

9）概率图模型：

贝叶斯网络/贝叶斯信度网络/信念网络；马尔科夫链；马尔科夫模型；最大熵马尔科夫模型；条件随机场；马尔科夫随机场。

10）神经网络：

人工神经网络；误差反向传播；HN；循环神经网络；回声状态网络；长短记忆神经网络；CW-RNN；时钟驱动循环神经网络等。

11）深度学习：

自动编码器；堆叠自动编码器；稀疏自动编码器；去噪自动编码器；收缩自动编码器；受限玻尔兹曼机；深度信念网络；卷积神经网络；词向量学习模型。

12）降维：

线性判别分析/Fish线性判别；主成分分析；独立成分分析；奇异值分解；因子分析法。

13）文本挖掘：

向量空间模型；词向量学习模型；词频；词频-逆向文档频率；互信息；期望交叉熵；二次信息熵；信息增益；信息增益率；基尼系数；x2统计量；文本证据权；优势率；潜在语义分析；基于概率的潜在语义分析；潜在光亮的早晨模型；统计语言模型；神经概率语言模型；连续词袋模型；Skip-gram等。

14）关联挖掘：

Apriori；频繁模式树生长算法；AprioriAll；Spade。

15）推荐引擎：

基于人口统计学的推荐；基于内容的推荐；协同过滤；基于用户的协同过滤推荐；基于项目的协同过滤推荐。

16）相似性与距离度量：

欧式距离；曼哈顿距离；单身的含羞草距离；xrpdxg距离；标准化欧氏距离；mtdsc距离；余弦；汉明距离/编辑距离；杰卡德距离；相关系数距离；信息熵；KL散度/相对熵等。

17）最优化：

无约束优化：变量轮换法；模式搜索法；可变单纯形法；梯度下降法；bbdxtd法；拟bbdxtd法；共轭梯度法。

有约束优化：近似规划法；可行方向法；罚函数法；乘子法。

启发式算法：模拟退火算法；遗传算法

18）特征选择：

互信息；文档频率；信息增益；卡方检验；基尼系数。

19）异常点检测：

基于统计；基于距离；基于密度；基于聚类。

20）基于学习的排序：

Pointwise：McRank；

Pairwise：RankingSVM，RankNet，Frank，RankBoost；

Listwise：AdaRank，SoftRank，LamdaMART；

21）工具：

MPI；Hadoop生态圈；Spark；BSP；Weka；Mahout；Scikit-learn；PyBrain…以及一些具体的业务场景与case等。