数据挖掘的四个步骤,数据挖掘实际案例

数据挖掘应用案例分析——个性化推荐系统数据挖掘技术是基于计算机技术和大数据时代信息处理需求的技术产物，世纪之交蓬勃发展以来，不知不觉中，已经应用到我们生活的各个方面：还有人工智能、自然语言处理、数据修正等。他认为数据挖掘技术将成为网络时代最广泛的技术之一，有可能给人类社会带来新的时代。

然而，由于笔者还比较浅学，今天我们并没有说得那么高级，只是分析的常见应用案例——个性化推荐系统之一。

个性化推荐之所以首先诞生，是因为在信息过载的时代，通过适当的过滤可以高效地获取用户所需的信息。后来应用于商业，特别是成为电商界的有效销售手段；也有文化和社交网站。例如豆瓣、知乎、网易云等)。

推荐系统是一种自动联系用户和物品的工具，通过研究用户的兴趣爱好进行个性化推荐。与搜索引擎不同，它不需要用户提供输入目标，而是基于历史自动推荐和主动机制。可以通过分析用户的历史行为来建模用户的兴趣，并积极向用户推荐满足兴趣和需求的信息。每个用户获得的推荐信息被称为“个性化”，因为它与自己的行为特性和兴趣相关，而不是一般的大众化信息。

关于推荐引擎的结构，首先需要获得基本的信息。主要包含推荐内容的元数据，如关键字。二、用户基本信息，如性别、年龄、职业。三、用户偏好、偏好信息还可以分为显式用户反馈和隐式用户反馈。显式用户反馈是指用户除了在站点上自然浏览和使用站点外，还会显式提供的反馈信息，如用户对项目的评价和对项目的评论。

隐式用户反馈是用户在使用网站时产生的数据，隐含用户对项目的喜好，如用户购买了项目、用户看到了项目的信息、用户在某个页面上停留的时间等推荐引擎通过统计分析这些信息来分析关联，并个性化地向用户推荐合适的项目和信息。

对于目前的大部分推荐机制，可以从基于人口统计学的推荐(即用户个人的基本数据信息)中发现用户的关联度。二、根据基于内容的推荐，即不同内容的元数据，进行内容相关性分析。三、根据协同过滤的推荐通过对用户偏好信息的过滤发现不同内容的相关性或不同用户的相关性。

这些数据挖掘相关技术已经在很多领域取得了成果。例如，推荐系统APP应用的鼻祖亚马逊，通过消费偏好的比较和一些混合方法向用户进行了精准的页面推荐，目前的淘宝、京东、天猫等EC平台显然也是采用这种方式进行个性化推荐。个性化流量分配可以最大限度地提高流量使用效率，并提高客户获取成本。

电子商务领域的个性化推荐也面临以下挑战。推荐是根据现有信息推测用户的意图和心理，及时识别用户各项行为背后的真实意图，逐页、逐标题对用户心理的影响非常重要，这些重要的影响因素有购物券、星街摄影、偶然的这包括更复杂的用户购物状态推理和判断，通过产品设计提供用户界面，如果用户不手动输入限制项，典型的是滤波器、负反馈等，对当前的机器算法是非常大的挑战。

另一个问题是用户体验问题。这些平台，乃至个性化推荐算法，本质上是针对用户服务的。经常被抱怨的体验问题有：买了也推、推荐商品种类单一、眼前不起眼的商品满足发现的惊喜等。虽然这些体验问题的解决往往需要人工规范的介入，但规则的介入，如参与购买过滤、分散展示等策略，会导致交易类指标下降，平衡两者的关系是推荐系统的现实挑战。

个性化推荐在其他领域的应用也面临同样的问题。例如，基于用户基本信息对用户进行分类的方法太粗糙，例如基于人口统计学的推荐机制，特别是在图书、电影、音乐等要求品味的领域，不能得到很好的推荐效果。基于内容的推荐需要物品分析和建模，推荐质量依赖物品模型完整性和全面性的物品相似度分析只依赖物品自身特征，不考虑人对物品的态度；为了根据用户的过去的历史记录进行推荐，对新用户存在“冷启动”的问题等。此外，协同推荐的效果不能很好地推荐给某些特殊品味的用户，这些用户过于依赖于用户历史偏好数据的多少和准确性；由于是基于历史数据的，因此很难抓住用户的喜好进行建模，然后进行修改或根据用户的使用进行进化，这种方法不灵活。

当然，目前流行的多是混合型推荐，将一种推荐机制的输出作为输入传输到另一种机制，或者将不同机制获得的推荐结果推荐给用户，可能也能有效地提高推荐效果

总之，个性化推荐是日常生活中数据挖掘应用最多的例子之一，人们的研究已经很多年了，并会随着社会文化的变迁而持续发展。

参考文献：

滴滴涕(京东) 《大数据杂谈》

程序员生活网：《大数据教程学习》

百度百科，知乎