怎样理解数据挖掘和知识发现的关系(大数据挖掘及应用)

今日数据百科/总结

我对做事的过程很感兴趣。我想知道一些做好事情的好方法，如果可能的话，甚至是做这些事情的最好方法。即使你的技能不强，对相关知识理解不深，这个过程也能帮助你在长期的过程中解决这些问题。它可以指导你如何变得更熟练，对相关知识有深刻的理解。至少，我用这种方式做了很多工作。

我认为学习数据挖掘非常有用，就像它以发现数据的过程的形式表现出来一样。在本文中，您将从相关教科书和论文中探索“数据挖掘”的一些官方定义。正如数据挖掘是一个过程一样，数据挖掘的定义包含了关于这个过程的几种解释。

比较权威教材

在这一部分，我们将从数据挖掘领域的两本权威教科书中寻找“数据挖掘”的定义。

数据挖掘：使用的机器学习工具和方法

这是兰威滕和艾贝弗兰克写的教科书。

在这本书的序言中，作者是这样开头的：

“数据挖掘是提取一些隐含的、未知的、非常有用的信息数据的过程。它的思想是编译一个程序，帮助我们动态过滤数据集，找到相关的规律和模型。如果能找到一个好的模型，它更有可能被扩展到准确预测未来的数据.机器学习将基于数据挖掘提供相应的方法。这用于从包含未处理数据的数据集中提取相关信息……”

在这本书的第一章，作者这样写道：

“数据挖掘被定义为从数据中发现相关模型的过程。这个过程必须是自动的(通常情况下)或半自动的。这些被发现的模型，只有能给我们带来一些利益，特别是经济利益，才有意义，因为总有大量的数据。”

我职业生涯早期读过这本书，数据挖掘的定义及其与机器学习的联系与我当时的工作密切相关。每当我使用机器学习方法时，我总是使用类似于数据挖掘的过程，除非我没有试图在本质上找到一个模型，否则我更喜欢为一个定义的问题找到一个“足够好”的解决方案。

数据挖掘：概念和方法

这是由可爱的小懒虫(美国伊利诺伊大学厄巴纳-香槟分校计算机科学正教授)和穆谢琳坎伯写的教材。

这本教科书的序言如下：

“数据挖掘，也被很多人称为KDD，是一种动态、简单的捕捉数据的方式，相关模型展示的复杂知识是从大型数据集、数据仓库、网页等大型信息数据库或数据流中存储或捕捉的。”

这里知识发现的定义有点好。在我看来，主要涉及这个领域的一些标准。我认为KDD更容易被接受的定义是数据集中的知识发现。

在教科书的第一章，作者总结了知识发现的过程(在书的第7页到第8页):

数据清理：去除一些不完整的、有影响的数据。

数据集成：组合来自多个数据源的数据。

数据选择：当数据与我们的分析任务相关时，我们从那个数据集中找出这些数据。

数据转换：数据经过转换形成合适的数据挖掘形式后，我们需要在这里进行归纳和整合操作。

数据挖掘：这是应用智能方法提取数据和构建模型的核心过程。

预测：确定一个真正有趣的模型，根据兴趣展示相关知识。

知识展示：通过可视化操作和知识展示，将挖掘得到的信息展示给用户。

在本书中，作者指出，数据挖掘一般更倾向于知识挖掘的全过程，因为这是一个短期的过程。

权威文章

在这一部分，我们将结合该领域的一些权威文章来探讨数据库中知识挖掘的过程。这些文章是采用可再发表的方法的杂志，而不是以前的杂志。因此，一些不太正式的品味被用于一个高层次话题的有益讨论。

从数据挖掘到数据库中的知识发现

这是由乌萨马法耶兹、格雷戈里皮亚特斯基-夏皮罗和帕德赫拉克史密斯写的一篇文章，发表在1996年的《AL》杂志上。

他们把KDD看作数据库的知识挖掘，我们更熟悉以下定义：

“KDD领域是随着数据理解方法和技巧的发展而产生的，而这个过程的核心是特殊数据挖掘方法在模型发现和提取中的应用。”

以及：

“在从数据中发现有用知识的整个过程中都会用到KDD，数据挖掘是很多人在这个过程中会用到的一个特殊步骤。数据挖掘是一种使用特殊算法从数据中提取相关模型的应用。”

作者在一个包含功能实体的盒子中提供了一个很好的总结，以及在这个过程中盒子被转换成盒子的图片。以下是总结：我一般都是谨慎的用图片来解释，这样不好。

意思，如果这个时候正式出版就比较困难了。

第一步：选择(从数据中找到目标数据)。

第二步：预处理过程(对目标数据进行处理)。

第三步：转换(把预处理过的数据进行转化处理)。

第四步：数据挖掘(对经过转换处理的数据进行建模)。

第五步：从知识的角度分析和评估这个模型。

这个过程很简单，而且我喜欢把这个模型用到我遇到的问题中。

从大量数据中提取有用的知识的过程

这是一篇由 Usama Fayyad、Gregory Piatetsky-Shapiro和Padhraic Smyth在1996年在ACM通信上面的文章。

在这篇文章中，作者对KDD过程作了一个更详细的归纳。这篇涉及更多细节的版本的文章是“从数据挖掘……”，但我觉得这篇文章表达的内容不够清晰。这篇涉及更多关于KDD过程的细节的文章经过一点修改如下：

明白其中的应用领域和这个过程的目标。

对所以可行的数据建立一个数据集子集。

数据清洗和数据预处理可以去除其中的杂质、处理错误的数据和极端值。

数据的简化和预测是为了能把焦点集中到与问题相关的功能上。

这是一个数据挖掘方法匹配其相应目的的过程。决定这个模型使用的目的，比如归纳和分类。

选择一个可以与相应模型使用的目的匹配的数据挖掘的算法(第五步的延续)。

数据挖掘，即，在数据上运行算法。

挖掘模型的解释是为了能让用户更好的明白其中的结果，诸如采用归纳和可视化操作的方法。

在已发现的知识上进行操作，诸如报告和决策。

我喜欢在这个过程中看到信息。这应了我的需要去明白使用这个过程的目的，以及可以持续的运行一个算法从而选出可以与这个目的匹配的模型。

结语

通过阅读这篇文章，你已经知道了数据挖掘是一个对现有的数据进行知识发现和挖掘出一个模型的过程。你也从中知道了这个过程通常包括几个步骤包含了数据的展现、算法的运行和结果的展现。

你从中学到了机器学习是用于数据挖掘的工具，而数据挖掘又是在数据库进行知识发现或KDD的一个很重要的步骤，而这两者又是在这个术语中是相提并论的，因为这样比较容易表达。

你也知道了pbdmz在你的项目运用机器学习的时候，你可能会运行一些KDD过程的模式，而这个过程是有目的的解决一个问题而不是只是做知识发现。

联璧大数据，作为联璧科技的一级市场分析大脑，在各商业场景中提供专业的分布式各类数据挖掘及场景化的算法调优，全方位覆盖各行的应用需求。针对大客户群提供量化定制化的行业解决方案及多维度的分析，深度满足不同行业的客户在不同场景下的商业需求，快速帮助企业实现以“数据驱动增长”的愿景。

其他资源

如果你还想作更深入的了解，你可以在以下的资源中读到更多相关文章，而这些文章都用在研究中，资源如下：

Data Mining: Practical Machine Learning Tools and Techniques (affiliate link)

Data Mining: Concepts and Techniques (affiliate link)

From Data Mining to Knowledge Discovery in Databases (google scholar), 1996

The KDD Process for Extracting Useful Knowledge from Volumes of Data (google scholar), 1996

你是怎样理解数据挖掘的，而你又是怎样理解机器学习如何适应于数据挖掘的?请你留言分享你的见解。

给推荐些大伙儿爱看的

❖ 欢迎分享到朋友圈哦 ❖

编辑 ✎ Lin数君

联璧大数据出品未经授权禁止转载

一键置顶公众号从此划船不用桨