首页 > 编程知识 正文

数据挖掘工程师需要考证吗,数据挖掘工程师招标要求

时间:2023-05-06 11:36:34 阅读:174160 作者:383

数据挖掘,顾名思义,就是在数据中找到有用的东西。 什么样的东西有用取决于具体的商业目标。 最简单的是统计APP。 例如,电子商务的数据。 例如,我统计过淘宝在哪个省购买泳衣最多等。

此外,根据用户的浏览、点击、收藏、购买等行为来推断用户的年龄、性别、购买能力、兴趣等可以表示人的图像,就等于用这些挖掘出的属性来刻画人,这毕竟是最基本的

1、数据挖掘的过去

说到数据挖掘。 经常离不开机器学习。 例如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。

很多年前人工智能AI (比如发生式系统、专家系统等,现在好像比较少了),90年代AI来到了瓶颈阶段,机器学习是突破口,现在机器学习又到了瓶颈阶段,深度学习又是突破口

第一,神经网络就像黑色的剪辑,很多东西都是不透明的,模型的解释力不强,以及当时无法处理非线性分类问题(后面的多层感知器可以拟合到XOR问题的解决等非线性问题) 参数过多、训练复杂、容易出错、易过拟合、不能保证全局最优、数学上不能证明的问题很多(个人理解)等。

科学家和工程师还是有区别的。 科学家试图把一个问题归结为数学问题,并证明这一点。 我觉得他们有意义。 用数学证明其有效性往往比做千百个实验来说明其有效性要好吧。 技术人员容易在意效果和结果)。

其次,多亏了目前的大规模计算工具,现在可以处理PB级别的数据。 反正人工智能还没有达到人类的水平,最终会怎么样,这暂时还没有设想。

当前,在大数据时代,许多企业拥有巨大的数据。 例如,阿里有消费数据,百度有搜索数据,腾讯有社交数据。 消费数据和搜索数据可以直接变现形成商业模式,但社交数据还不能直接变现。 至少企鹅现在正在探索中。 比如,你的朋友圈、qq空间到处都是广告,你很讨厌吗?

如果有数据,还有另一个重要方面。 处理数据的能力,也就是数据处理工具可以处理这么大的数据量。 两者缺一不可。 要说缺少什么大数据,那就是流氓。

2、数据挖掘工程师应具备的技能

首先数学知识很扎实吧。 统计和概率论是基本的(有人说现在的机器学习是统计学习,但确实有道理),微分和积分是一定要知道的,公式应该看懂吧,进阶优化,随机过程等等。 我建议你去看看机器学习的10个算法和深度学习的东西,看看NBA的博客。

接下来,作为工程师,你应该能写代码吧。 不写代码的工程师是胡说八道。 不要写代码的数据挖掘和机器学习。 那是个研究者,懂高级语言和脚本语言就行了。 (JAVA和C、Python和r等,个人推荐JAVA和Python。 因为Hadoop、Spark、Hive、MPI等对JAVA很方便。 您还需要知道Linux、shell和SQL。 这都是个人意见。 至少在蚂蚁中,我们使用javasqlpython shell。 蚂蚁有一种很强的东西叫ODPS。 现在被称为MaxCoupute。 请在AlibabaCloud (阿里巴巴云)的官方网站上查询相关资料。

你说的excel、SAS、SPSS是数据分析者专用的。 因为是工程师,所以编程语言还是需要的。

又是道具,能用就好了。 对于是否需要学习hadoop、hive等,个人的意见是知道使用,知道如何使用,如何在上面实现一些算法,以及如何优化自己写的程序就可以了那些只是道具,而且更新得很快的话,就说hadoop吧。 我还没有完全理解的时候,就渐渐被spark取代了。 请记住。 这些只是工具。 我推荐能加深你数据挖掘实力的东西。 weka (独立版)和mahout (机器)是分布式的,有基于hadoop和spark的。 它们都是开源的。

最后,对于工作中是否需要设计新算法,我认为企业还没有那么要求。 除非你觉得自己很强硬,否则我会向谷歌学习。 但是,能够设计出好的算法并解决实际问题的算法,并非一朝一夕。 从个人观点来看,可以想到很多算法。 最大的问题是如何证明其正确性,证明其效果。 如果想去企业,多看看谷歌和ms的工程文章,想研究的话,多看看ICML、IJCAI、KDD、NIPS、CVPR等学术酷炫的战士文章。 大部分工作是将现有的机器学习和数据挖掘算法应用于具体实践,根据业务场景和数据特点对算法进行改造或调整。

例如,在淘宝上买衣服,系统如何推荐感兴趣、与该衣服搭配的裤子和配件,这就是数据挖掘工程师的工作。

3、常用知识点介绍

至于数据挖掘和机器学习,也不是几百个字就能说清楚的,所以增加几个想从事机器学习和数据挖掘的应该学习的知识点:

1 )基本:

MSE (均方误差)、LMS (最小均方)、LSM )最大胆睫毛乘法)、MLE )最大似然估计)、QP )二次规划)、CP )条件概率)、JP )联合概率)、MP )边缘概率);

贝叶斯公式(贝叶斯公式)、L1/L2 ) L1/L2正则、其他目前比较流行的L2.5正则等);

GD (梯度下降)、SGD (随机梯度下降)、Eigenvalue )、Ei

genvector(特征向量),QR-decomposition(QR分解),Quantile (分位数),Covariance(协方差矩阵)。

2)常见分布:

离散型分布:lcdyet分步/二项分布;负二项分布;多式分布;几何分布;超几何分布;泊松分

连续型分布:均匀分布;正态分布/火星上的小松鼠分布;指数分布;对数正态分布;Gamma分布;Beta分布;光亮的早晨分布;瑞利分布;柯西分布;韦伯分布

三大抽样分布:卡方分布;t-distribution;F-分布

3)数据预处理:

缺失值填充;离散化;映射;归一化/标准化)。

4)采样:

简单随机采样;离线等可能K采样;在线等可能K采样;等比例随机采样;接受-拒绝采样;重要性采样;马尔科夫蒙特卡罗采样算法。

5)聚类:

K-Means;K-Mediods;二分K-Means;FK-Means;Canopy;谱聚类;混合火星上的小松鼠模型-期望最大化算法解决;K-Pototypes;基于划分;基于层次;基于层次;基于密度;基于密度和基于网格;2014年Science上的密度聚类算法等。

6)聚类效果评估:

纯度;芮氏指标;调整的芮氏指标;规范化互信息;F测量等。

7)分类&回归:

线性回归;逻辑回归;多分类逻辑回归;广义线性模型;岭回归/L2正则最大胆的睫毛乘回归;正则最大胆的睫毛乘回归;随机森林;决策树;梯度下降决策树;分类回归树;近邻;支持向量机;核函数;多项式核函数;火星上的小松鼠核函数;径向基函数;字符串核函数;朴素贝叶斯;贝叶斯网络/贝叶斯信度网络/信念网络;线性判别分析;集成学习;自适应增强;最大熵模型。

8)分类效果评估:

混淆矩阵;精确度;召回率;准确率;F得分;ROC曲线;AUC面积;Lift曲线;KS曲线。

9)概率图模型:

贝叶斯网络/贝叶斯信度网络/信念网络;马尔科夫链;马尔科夫模型;最大熵马尔科夫模型;条件随机场;马尔科夫随机场。

10)神经网络:

人工神经网络;误差反向传播;HN;循环神经网络;回声状态网络;长短记忆神经网络;CW-RNN;时钟驱动循环神经网络等。

11)深度学习:

自动编码器;堆叠自动编码器;稀疏自动编码器;去噪自动编码器;收缩自动编码器;受限玻尔兹曼机;深度信念网络;卷积神经网络;词向量学习模型。

12)降维:

线性判别分析/Fish线性判别;主成分分析;独立成分分析;奇异值分解;因子分析法。

13)文本挖掘:

向量空间模型;词向量学习模型;词频;词频-逆向文档频率;互信息;期望交叉熵;二次信息熵;信息增益;信息增益率;基尼系数;x2统计量;文本证据权;优势率;潜在语义分析;基于概率的潜在语义分析;潜在光亮的早晨模型;统计语言模型;神经概率语言模型;连续词袋模型;Skip-gram等。

14)关联挖掘:

Apriori;频繁模式树生长算法;AprioriAll;Spade。

15)推荐引擎:

基于人口统计学的推荐;基于内容的推荐;协同过滤;基于用户的协同过滤推荐;基于项目的协同过滤推荐。

16)相似性与距离度量:

欧式距离;曼哈顿距离;单身的含羞草距离;xrpdxg距离;标准化欧氏距离;mtdsc距离;余弦;汉明距离/编辑距离;杰卡德距离;相关系数距离;信息熵;KL散度/相对熵等。

17)最优化:

无约束优化:变量轮换法;模式搜索法;可变单纯形法;梯度下降法;bbdxtd法;拟bbdxtd法;共轭梯度法。

有约束优化:近似规划法;可行方向法;罚函数法;乘子法。

启发式算法:模拟退火算法;遗传算法

18)特征选择:

互信息;文档频率;信息增益;卡方检验;基尼系数。

19)异常点检测:

基于统计;基于距离;基于密度;基于聚类。

20)基于学习的排序:

Pointwise:McRank;

Pairwise:RankingSVM,RankNet,Frank,RankBoost;

Listwise:AdaRank,SoftRank,LamdaMART;

21)工具:

MPI;Hadoop生态圈;Spark;BSP;Weka;Mahout;Scikit-learn;PyBrain…以及一些具体的业务场景与case等。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。