数据挖掘的基本流程,数据挖掘小项目

根据1 数据挖掘简介数据挖掘行业权威tsdpy berry和gordon linoff的论述，数据挖掘是一个通过自动或半自动手段揭示大量数据中有意义潜在规律的处理过程。这里必须强调的是“大量数据”和“有意义的潜在规律”，这两个特点使数据挖掘区别于传统的独立分布式的数据分析和简单的数据库查询、报表APP应用。数据挖掘APP应用近年来发展迅速，其基础是关系型数据库系统APP应用的普及和成熟，积累了大量以数据库形式存在的业务数据，为数据挖掘中的“海量数据”和“自动或半自动手段”提供了可能性其驱动力是业务需求的发展，特别是数据库APP应用系统上线后给业务需求带来的正反馈作用，其核心是产品化的数据挖掘产品和实施咨询服务。 http://基于www.Sina.com/2.1数据仓库的数据挖掘

在许多项目中，数据挖掘是统一数据平台，特别是数据仓库的扩展APP应用程序。通常，在大型项目中，在数据仓库中创建特定主题的数据挖掘的数据集市，并将其作为更稳定的数据挖掘数据源进行数据挖掘，以便能够以比较系统的形式定期加载和更新数据以评分预测或与营销系统集成等形式发布于企业，经过一定的效果评价和阶段性评审，得出项目阶段性结论[1]。这种类型的项目，数据挖掘与数据仓库紧密结合，采用统一的数据，有利于数据挖掘过程在企业中的重用和固化，建立稳定的应用模式，但数据挖掘过程极大地制约了数据仓库的建设此外，项目很可能会在数据仓库方面而不是数据挖掘问题上失败。

2.2试运行数据挖掘

数据挖掘项目也可以独立于数据仓库而存在。如果挖掘主题明确，相应的数据仓库尚未建立，或者项目具有较强的预研究性，则数据挖掘项目直接进入主题，获取运营系统的原始数据，专门用于具体数据挖掘用途的专用数据可以在不太考虑重用批量加载环节的情况下，尽快启动挖掘过程，并快速与业务沟通结果。这样做的好处是使企业更容易直接体验数据挖掘的效果，特别是业务管理部门可以很快从数据规律中获取直接的决策支持信息，数据挖掘对数据仓库建设过程的约束少，效果周期短，短期投资效果好但是，由于很难形成相对稳定的应用模型，而且数据源和转换处理往往独立于企业数据仓库的建设，一些工作在今后的数据集市过程中会反复开始，甚至可能发生数据不匹配，这种相互

在我们实施的数据挖掘案例中，将这两种模型有机地结合起来，首先利用一个或几个主题的独立数据挖掘项目的展开，为企业数据仓库提供面向数据挖掘的数据需求，同时也为这些独立的项目提供了这样，在数据仓库建设中，可以获得更多来自数据挖掘的设计要求和参考经验，有效地构建数据仓库和整个数据挖掘的系统。2 数据挖掘项目形态

3.1数据挖掘方法论综述

数据挖掘框架基于成熟合理的方法论。主要有semma方法论和crisp-dm方法论。 semma方法论以采样(sample )、搜索(explore )、修改(modify )、建模(model )、评估(assess )为核心环节，强调数据挖掘过程是这五个环节的有机循环crisp-dm是全行业数据挖掘标准流程(cross-industrystandardprocessfordatamining )的缩写，是业务理解(business understanding )、数据理解(data 强调数据准备(数据复制)、建模(建模)、评估(评估)、发布(数据复制)

在实际应用中，将这两种方法有机结合起来，crisp-dm强调高层业务目的的实现过程，semma强调具体的数据挖掘技术的实现过程。

3.2主要环节

综合我们实际进行的数据挖掘，数据挖掘项目分为以下主要环节，如图1所示。 500 ) this.style.width=500； ' border='0' style=' font-family :-apple-system，' Helvetica Neue '，Helvetica，Arial，' PingFang SC '，' hi margin: 0px 0px 15px； padding: 0px； border :否；最大窗口： 100 %； font-size: 16px；魔兽世界： break-all； width: 485px；高： 270 px； cursor: pointer；' a )定义业务问题

这一环的任务是评估数据挖掘过程的成本与业务收入之间的平衡，识别分析目标的焦点范围，收集相关业务规则，确定数据源的可用性，验证行业专家的观点。

b )转换数据格式以适应数据挖掘的要求

这是技术性最强的环节，包括了数据准备和数据挖掘建模。主要流程如图2。 500)this.style.width=500;" border="0" style="font-family: -apple-system, "Helvetica Neue", Helvetica, Arial, "PingFang SC", "Hiragino Sans GB", "WenQuanYi Micro Hei", "Microsoft Yahei", sans-serif; -webkit-font-smoothing: antialiased; margin: 0px 0px 15px; padding: 0px; border: none; max-width: 100%; font-size: 16px; word-break: break-all; cursor: pointer;"> 确定并获取数据
首先，要根据已经明确的业务问题，定义需要被预测或研究的目标因素。然后，确认数据中包含在历史上已经发生的目标因素的结果值，例如，预测客户流失，历史数据中需要包含客户是否发生流失的信息。同时数据中还应该包含与目标因素可能相关的各类信息，在了解数据源的过程中，还应该明确数据的更新加载方式，这样才能够形成不断使用最近数据，预测未来目标的循环应用模式。 验证，探索，清洗数据
需要确定数据的来源是否可靠。考察数据项是自动衍生还是手工录入，是否存在缺失现象，取值是否符合规定，是否合理，数值分布是否可以解释，等等。
转置数据，形成合适的颗粒度
数据挖掘需要的数据往往是一个事件一行，一行中包含所有的相关属性。例如，客户价值分析中，以客户号为核心，将客户的各种指标在时间上的快照聚集到一行上。这种形式，需要对原始数据进行相应的转置操作，例如，将多个属性行对应一个一个客户的结构转置成一个客户行多个属性列的格式。
增加衍生变量
很多情形下，原始的数据列和目标因素之间不易找到明显的相关性，需要增加一些衍生变量，以辅助分析。例如，在客户使用量这个指标的基础上，增加客户的用量的三个月平均变动率，等等。 准备建模用的数据 这个环节需要考虑分析的时间段和时间颗粒度（周，月，季等），建模用的数据必须匹配相应的时间要求，数据中时间的发生必须在相应的时间段内。同时，可能需要对小概率事件进行过抽样（oversampling）以适应建模技术。在很多情形下，还可能对数据做剖分（partition），将历史数据分为训练（train）、验证（validate）、测试（test）三个部分，以便取得较好的预测效果，避免过拟合（overfitting）现象[4]。这些操作，将使数据更加适合数据挖掘的建模工作。 选择合适建模技术，训练模型
这个环节，就是狭义上的“数据挖掘”，实质上是挖掘建模的具体技术过程。我们采用semma方法论逐步找到合适的建模技术，训练数据，最终找到规律和模式[5]。 检验模型的效果
在模型检验中，会使用历史数据中部分已有结果，以测试数据的形式与模型预测结果对比，客观地考察预测准确性。在真正的预测期间，只能等到未来的数据结果变成现实后，才能对预测结果作出对比，因此，需要有一个模型在市场环境中的试投放的时期，来检验模型真实效果。
c) 对分析结果进行理解和应用
利用数据挖掘的最终结果和中间结果，可以深入了解企业数据的分布特征和存在的问题，进行一次性的专题分析或是周期性分析预测，还可以建立实时评分系统如客户信用评分系统等，也可以为企业数据系统的改进提供重要的依据。
d) 评估模型的收效
将模型的结果和投入成本与真实的业务收效相比，最终对数据挖掘过程作出综合评价。
4 小结 数据挖掘项目在目前，特别是在国内，还处于边界条件尚未明确界分的阶段，并不是很成熟。但是数据挖掘项目的特质之一就是动态性，这种动态性是由它与企业业务的密切结合决定的，它对于业务的辅助作用的力度和直接程度超过了传统的业务支撑系统、mis系统，也超过了数据仓库应用中的报表查询系统；企业对于决策信息的需求，在数据挖掘项目中，找到了前所未有的载体，因此，数据挖掘应用拥有更加广阔深远的前景。随着数据挖掘中某些应用的进一步成熟，数据挖掘将在各大行业中逐步形成有层次的产业链。
所以，不断地跟踪最新的数据挖掘知识和项目实施方法论，不断地通过数据挖掘项目实践来创造业务效益，应该作为国内信息技术领域在今后一个时期的焦点命题。本文挂靠中国民航飞行学院科研基金，项目名称是“设备虚拟网”，基金编号是j2004-23。
参考文献
[1] tsdpy j.a. berry and gordon s. linoff . mastering data mining. john wiley & s isbn 0-471-33123-6，copyright 2000.
[2] y. vassiliou, qcdxh lenzerini, panos vassiliadis. fundamentals of data warehouses november 2002 publisher. springer verlag; 2nd edition (january 17, 2003).
[3]（加）jiawei han micheline kamber. 数据挖掘概念与技术. 机械工业出版社，2001年.
[4] 萨师煊. 数据库系统概论. 高等教育出版社，2004年.
[5] hpdrjb. 数据挖掘教程. 清华大学出版社，2005年.