数据挖掘应用实例,数据挖掘的数据分析方法

1 .数据挖掘的模型数据挖掘功能用于指定数据挖掘任务发现的模式:一般来说，这些任务可以分为描述性和可预测性两类。说明性挖掘任务表示目标数据中数据的一般性质。预测性挖掘任务被汇编成当前数据，以便进行预测。数据挖掘的功能和模型主要包括：

表征与区分频繁模式、关联与关联分析挖掘分类与回归聚类分析离群点分析2类/概念：表征与区分数据可以与类或概念相关联，可以通过下述方法得到：数据表征：归纳研究对象类(常规目标类)数据；区分数据：可以与目标类进行比较的一个或多个类，通常称为比较类。

客户概念包括bigSpenders和budgetSpenders，这种概括、简洁、准确的描述方法就是类/概念描述。数据特征化的方法

“特征化”(data characterization )收集与用户通过查询指定的类相对应的数据。例如，对于“总结一家商店每年花费5000美元以上的客户特征”的挖掘任务，统计结果可能是客户的概要文件，例如年龄为40~50岁、有工作、有良好的信用评级等。数据特征化的输出

它可以多种形式提供，包括饼图、条形图、曲线、多维数据立方体和包含交叉表的多维表。结果描述可以以广义关系或规则(称为特征规则)的形式来提供。数据区分

“数据划分”(data discrimination )是将目标类数据对象的常规特性与一个或多个比较类对象的常规特性进行比较。目标类和比较类可以由用户指定，而相应的数据对象可以在数据库查询中检索。

例如，两组客户——定期将购买计算机产品的客户与不经常购买该产品的客户进行比较。结果，我将概述这些客户比较。例如，经常购买计算机产品的顾客中，80%在20-40岁之间接受过大学教育；不经常购买这些产品的顾客中，有60%年龄过大、太年轻或没有大学学位。 3相关分析频繁模式

“频繁模式”(frequent pattern )是一种在数据中频繁出现的模式，有多种类型的频繁模式，包括频繁项集、频繁子序列、频繁子结构等。频繁项集

频繁物品集是指零售店中很多顾客经常购买的牛奶和面包等频繁出现在办公数据中的商品的集合。频繁子序列

这种模式类似于顾客先买手机，再买数码相机，然后再买存储卡。关联和相关性

关系分析，也称为关系挖掘，是在事务数据、相关数据或其他信息介质中搜索存在于项目集合或对象集合之间的频繁模式、关系、相关性或因果结构。

4分类或回归用于预测的分类

分类是找出描述和区分数据类和概念的模型(函数)，并使模型能够预测不知道类标签的对象的类标签的过程。用于预测的回归

“回归分析”(regression analysis )是一种统计分析方法，用于确定两个或多个变量之间相互依赖的定量关系。

5聚类分析聚类分析

聚类分析是将物理或抽象对象集合分组为由相似对象组成的多个类的分析过程。

聚类与分类的区别在于，分类是已知的分类标签，而聚类中没有。

6离群点分析数据集可能存在与数据的常规行为或模型不匹配的数据对象，称为离群点。在大多数数据挖掘方法中，偏离的点被视为噪声或异常而丢弃。但是，在某些APP应用(如欺诈检查)中，罕见的事件可能比常规事件更感兴趣。