首页 > 编程知识 正文

吴信东视频(数据挖掘分类算法)

时间:2023-05-04 13:37:13 阅读:86755 作者:4912

作者|勤奋的薄饼

编辑

6月6日,中国计算机学会(CCF )主办的中国计算机学会青年粗暴发带大会) CCF YEF )在线召开,是“经典流传的机器学习与数据挖掘算法”技术论坛,明略科技首席科学家、明略科学院院长JY。 UCLA副教授无限大厦; 微软雷蒙德研究所高级研究科学家害羞的爆米花; CCF高级会员,清华大学计算机系系主任聘任副教授xqdl; CCF高级会员、中科院计算所研究员温柔松鼠的几位特邀专家带领大家重温经典,解读他们心中的经典机器学习和数据挖掘算法,并与大家分享了这些算法的起源、应用和影响。

其中,明略科技首席科学家、明略科学院院长jydkj以《数据挖掘算法回顾:经典与现代》为题进行了报告,总时间为1小时左右,内容主要分为三个部分,数据挖掘的代表领域、数据挖掘的经典算法、2006年以后的现代数据挖掘技术

以下是地道报告的文本版,由AI科技评论编辑。

今天主要回顾三个方面,第一是数据挖掘的代表性领域,第二是分析2006年IEEE ICDM会议上排名前十的数据挖掘算法。第三是分析2006年以后数据挖掘的代表性方向。

无论是模型研究还是应用,数据挖掘主要有10个代表领域。 第一个领域是众所周知的“分类”,主要内容是讨论如何对数据进行分类。 分类领域比较经典的算法有C4.5、CART、KNN、朴素贝叶斯等。

其中C4.5是澳大利亚研究者在1993年进行的工作CART是斯坦福统计学教授在1984年的工作,主要以分类和回归树为对象的KNN是1996年发明的,现在常用的“类呼友,人以群为朴素贝叶斯发明于2001年,基于条件概率提出了独立性假设。

第二个领域是“聚类”,与“分类任务”的不同在于有无类型标签,聚类任务大多包含没有类型标签的任务。 比较经典算法主要有两种。 一个是K-Means,于1967年提出,另一个是BIRCH。 全名是利用分层方法的平衡迭代规约和聚类,由数据库领域的研究者于1994年提出,其效率高于K-Means。

第三个领域是“关联分析”,这样的主题广泛存在于互联网和日常生活中,典型的例子是“啤酒和尿片”的故事。 早期最具代表性的算法是Apriori,作为关联规则挖掘(Association rule mining )的典型算法,其主要任务是发现事物之间的内在联系。 另一种具有代表性的算法是中国学者淡定乐曲2000年提出的相关分析算法——FP树,其效率比Apriori提高了一个数量级。

上面三个是数据挖掘领域中最具代表性的三个领域,只有了解了这三个领域,才能成为数据挖掘的基本入门。

第四个领域是“统计学习”,多挖掘数字的期待、数据的特征进行分析。 两种典型的算法,一种是SVM (支持向量机),它是用监控学习方式对数据进行二元分类的广义线性分类器。 另一种是EM (期望极大)算法,是基于迭代的极大似然估计的优化算法。 这两种算法对初学者要求很高。 因为统计分析有很多关系。

第五个领域是“链接挖掘”,主要处理网络中网页的链接、结构。 PageRank和HITS是这一领域比较经典的算法,其中,PageRank是谷歌搜索页面背后的算法支撑,当时发明该算法的两位(佩奇和ssdrg ),现已获得博士学位, HITS是康奈尔大学(的Jon Kleinberg博士于1997年首先提出的分析网页重要性的算法。

第六个领域是“Bagging和Boosting”,其核心思想是“三个臭皮匠顶一个tmdbwb”。 也就是说,群体的智慧超越了个人的智慧。 它作为模型融合的方法,可以将弱分类器融合形成一个强分类器,并且融合后的效果比最好的弱分类器更好。 经典的典型算法是AdaBoost。

第七个领域是“序列模式”,将空间、时间等其他维度引入到相关分析中。 其典型算法是GSP和prefix跨度。

第八个领域是“Integrated Mining”,这个领域最先由新加坡国立大学的几位中国学者探索。 有名的是LiuBing老师,他在1998年首次提出了CBA算法,将整合分类和相关规则挖掘融合在了一起。

第九个领域是“Graph Mining”,广泛应用于化学、生物等计算机以外的领域。 典型的算法是gSpan。

第十个领域是“深度学习”,其集大成于2015年由图灵三剑客Yann LeCun,Yoshua Bengi

o Geoffrey Hinton那篇发表在nature上面的《Deep Learning》。

1 十大经典算法

数据挖掘领域的十大算法评选是基于我2006年在IEEE ICDM上推出的数据挖掘算法Top 10。这十个算法如上图所示,分别是:CART、Naive Bayes、KNN、AdaBoost、PageRank、EM、Apriori、SVM、K-means、C4.5。

其中,CART是由斯坦福大学的四个统计学教授发明,这四位老师只有一位是IEEE Fellow,另外三位是美国的工程院院士、美国科学学院院士,在统计回归领域非常有名望;第七名的位次是由朴素贝叶斯、KNN、AdaBoost三个算法并列;PageRank排在了第六名;统计学习方法EM排在了第五位;Apriori这一关联分析方法排在第四位;SVM(支持向量机)在第三位;聚类算法K-Means在第二位;2006年,澳大利亚学者Ross Quinlan开发的C4.5算法排在了第一位。

上述10个算法是2006年评选的,14年过去了,这十大算法是否时过境迁?是否需要重新评选?

昨日,我去google scholar 搜索了一下当年的文章《Top 10 Algorithms in Data Mining》,这篇文章发表写成于2006年,发表于2008年,目前引用量已经达到了4879次。如上图所示,可以清晰的看到,其引用量还在逐年上升。以一本书的销量为例,只有当书的销量开始下滑的时候才需要重新考虑重新写书。所以,考虑到文章与日俱增的“热度”,重新考虑Top 10算法的排名与评选为时过早。十大算法的评选在今天来看并未过时。

2 数据挖掘领域的现代算法

前面讲述的内容大多在2006年之前,接下来介绍我个人认为2006年之后的数据挖掘的两大方向,供大家讨论。

第一个方向是大家都会承认的是Deep Learning,因为此领域掀起了人工智能领域研究的热潮,也对数据挖掘领域的推动起到了不可否认的作用。上面我列了三个框架:卷积神经网络、递归神经网络、循环神经网络等给大家提供讨论的思路,因为我本人研究“逻辑”比较多,对深度学习了解不是很多,后面的报告讲者也会讨论深度学习,所以我就不展开讨论了。

第二方向,是我自己的一个工作,叫做OSFS:Online Streaming Feature Selection,这个工作与前面经典算法大不相同。其核心思想是针对数据来源多样性,数据分散性来把数据分成数据元。值得一提的是,OSFS不光是针对数据量,还针对数据特征的变化。例如一个数据库里面,包含的变量是X1~X20,那么经过一天的时间,可能就变成了X1~X21。所以,这样数据的特征就会变成“流”状态。

我们此类工作的大致框架如上图,给定一个新特征X,先检查其的相关性,看新特征是否能影响当下任务,如果无影响,那么抛弃,如果能够影响当下任务,那么进一步检查冗余性,即这个新特征能否用现有的特征推导?能否用现有的特征表示?如果能够表示,那么抛弃新特征,如果没有冗余性,那么将此新特征更新到模型中,从而输出新的特征集合。

可以看到这个算法框架是个闭环,其重点在于如何设定停止训练的标准。我们设定了三个标准:1.达到预期的精度;2.达到最大的迭代次数;3.没有更多的新特征可以加入。

这个方向的工作,我们最早是在2010年开始尝试,并在ICML会议上发表了一篇文章,2013年又那篇文章进行了进一步的分析,而目前此类工作可能已经有了几百篇文章。

上面是我们最初的算法思路具体细节,重点是在于对新特征的相关性分析和冗余性分析,虽然在处理新特征方面比较有新意,但是容易导致NP问题。也就是说相关性分析可以做dependency ,但一旦判定存在相关性,进行冗余性分析的时候,需要考虑所有现存特征的子集。

针对NP问题,我们在OSFS的思路上进行了创新,即设计出Fast-OSFS算法将原有的NP复杂度问题转换成多项式问题。原有的相关性分析没有改变,此算法改变的是冗余性分析。即在冗余性分析中将所有特征的子集检测转换成了马尔科夫毯。

基于此,我们也做过很多的实验,如上图所示,示例的数量在不断上升。

用OSFS算法我们也做了一些例子,例如对上面三张火星大图片(每张图片是37500*56250平方米)进行撞击坑检测。例子的结果我们也写到了论文中:

最后,谈一些开放问题,首先经典十大算法的排名要变么?答案是:肯定要变,因为需要更好的算法去替代历史。

再者,深度学习会不会取代经典算法?答案是:不会!深度学习是机器学习或者数据挖掘一个有力的工具,虽然很有效,但是取代不了现有经典算法。

招 聘

AI 科技评论希望能够招聘 科技编辑/记者 一名

办公地点:北京/深圳

职务:以参与学术顶会报道、人物专访为主

工作内容:

1、参加各种人工智能学术会议,并做会议内容报道;

2、采访人工智能领域学者或研发人员;

3、关注学术领域热点事件,并及时跟踪报道。

要求:

1、热爱人工智能学术研究内容,擅长与学者或企业工程人员打交道;

2、有一定的理工科背景,对人工智能技术有所了解者更佳;

3、英语能力强(工作内容涉及大量英文资料);

4、学习能力强,对人工智能前沿技术有一定的了解,并能够逐渐形成自己的观点。

感兴趣者,可将简历发送到邮箱:cenfeng@leiphone.com

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。