首页 > 编程知识 正文

数据挖掘的实例(海量数据挖掘斯坦福)

时间:2023-05-04 04:36:10 阅读:98112 作者:1974

“大数据”时代即将到来,如何解读和分析我们面临的各种数据,需要一个“武器”来做到。边肖是侃侃的“数据挖掘”,称之为“倚天剑”毫不夸张。

一、数据挖掘的出现

随着数据存储技术和采集技术的发展,采集的数据越来越多,被人们占用的数据呈爆炸式增长。如果你想从中提取有用的信息,将需要大量的人力和时间。传统的数据库概念、方法和技术已经难以有效解决当前的问题。而且,相当数量的数据具有很强的时效性,这意味着数据的价值会随着时间的推移而迅速降低。因此,迫切需要强大的数据分析技术从海量数据中获取信息或知识。受统计学中的抽样假设检验、人工智能中的机器学习搜索算法、学习理论建模技术等其他一些领域的启发,一套完整的数据挖掘技术逐渐形成。

二.什么是数据挖掘

数据挖掘,即从数据中挖掘或提取隐含的、新颖的、潜在有用的信息,是数据库技术、人工智能、机器学习、统计学、模式识别、神经网络、信息检索、视觉计算等多学科交叉发展而产生的一门新学科(不要问边肖是怎么知道的,从小就在背诵名词解释)。

数据挖掘技术可以帮助人们从数据库等相关数据集中提取有趣、有用的知识和规则,并能帮助人们从不同程度上对其进行分析和理解,从而更有效地利用这些数据。数据挖掘技术不仅可以用来描述数据过去的发展过程,执行描述任务,还可以进一步预测数据的未来趋势。

数据挖掘是一个跨学科的研究领域,融合了统计学、数据库技术、机器学习、人工智能、数据可视化等技术。数据挖掘是一个全新的概念,它改变了人们使用数据的方式,使数据处理技术进入更高级的阶段。它被称为未来信息处理的骨干技术之一。它不仅可以查询过去的数据,还可以专注于找出过去数据之间的潜在关系,进行更高层次的分析,从而更好地预测未来的发展趋势,做出正确的决策。

三.数据挖掘案例

1.尿布和啤酒

说起数据挖掘,我不得不说说“纸尿裤和啤酒”的故事。“啤酒和尿布”的故事产生于20世纪90年代的沃尔玛。在分析销售数据时,沃尔玛超市的管理人员发现了一个不可理解的现象:在一定的情况下,两种看似不相关的产品“啤酒”和“尿布”经常出现在同一个购物篮中。也就是说,通过数据挖掘中的关联分析,发现啤酒和纸尿裤这两种看似不相关的产品,频繁出现在购物篮数据集中。细看发现,当时美国有婴儿的家庭,母亲通常在家照看婴儿,年轻的父亲去超市买纸尿裤。爸爸买纸尿裤的时候,经常会顺便给自己买啤酒,这样啤酒和纸尿裤这两种看似不相关的产品就经常出现在同一个购物篮里。因为纸尿裤和啤酒一起买的机会很多,所以沃尔玛把纸尿裤和啤酒并排放在所有的店里。结果,纸尿裤和啤酒的销量都增加了。

按照常规思维,纸尿裤与啤酒无关,没有对大量交易数据进行挖掘分析的数据挖掘技术,沃尔玛无法在数据中找到这个有价值的规律。购物篮数据的关联分析可以帮助做出商业决策。比如为了增加相关商品的销量,可以把相关商品放在一起;为了提高客户的停留时间,增加其他商品的销量,相关商品可以单独放置。

2.人脸识别

目前,人脸识别技术广泛应用于各种安检系统中。警方只需要将罪犯的人脸数据采集到安检数据库中,这样罪犯一出现,系统就能准确识别他。如今人脸识别技术相对成熟,谷歌在Picasa照片分享软件的工具中加入了人脸识别功能。当然,人脸识别技术涉及隐私,这是一把双刃剑。这就是为什么谷歌故意模糊谷歌街景地图中的人脸,变得无法识别。虽然人脸识别需要依赖其他技术,但人脸识别中的主要技术仍然来自于数据挖掘中的分类算法。

3.想不到:胸最大的女生是新疆。

淘宝数据平台显示,购买最多的文胸尺码是B罩杯。b杯占41.45%,其中75B卖得最好。其次是A杯,购买比例为25.26%,C杯仅为8.96%。黑色是最畅销的胸罩颜色。按省市排名,新疆女生乳房最大。

这是一个网站上列出的数据挖掘案例。边肖认为这种情况主要是利用统计知识。放在这里,博君笑了。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。