数据挖掘的基本步骤及关键工作,数据挖掘技术工作

数据挖掘技术基本任务 1.分类与预测2.聚类分析3.关联规则4.时序模式4.偏差检测5.智能推荐

1.分类与预测定义
分类：构造一个分类模型，输入样本的属性值，输出对应的类别，将每个样本映射到预先定义好的类别，分类模型建立在已有类标记的数据集上。
预测：建立两种或两种以上变量间相互依赖的函数模型，然后进行预测或控制。
两步过程：通过训练集建立预测属性（数值型的）的函数模型；在模型通过检验后进行预测或控制。实现过程
（1）学习步
通过归纳分析训练样本集来建立分类模型得到分类规则
（2）分类步
先用已知的测试样本集评估分类规则的准确率，如果准确率是可以接受的，则使用该模型对未知类标号的待测本集进行预测。常用的分类与预测算法
（1）定义
回归分析：确定预测属性（数值型）与其他变量间相互依赖的定量关系最常用的统计学方法。
（2）模型分类
*回归分析

· 线性回归
适用条件：呈线性关系，用最lhzdmla乘法求解模型系数

· 非线性回归
适用条件：呈非线性关系，用非线性最lhzdmla乘方法求解

· Logistic回归
适用条件：因变量一般有1和0（是否）两种取值
广义线性回归模型的特例，利用Logistic函数将因变量的取值范围控制在0和1之间，表示取值为1的概率

Logistic回归建模步骤：
a. 根据目的设置指标变量
b. 列车线性回归方程，估计模型回归系数
c. 进行模型检验
d. 模型应用

· 岭回归
适用条件 :参与建模的自变量之间具有多重共线性,是一种改进最lhzdmla乘估计的方法

· 主成分回归
适用条件:参与建模的自变量之间具有多重共线性
根据主成分分析的思想提出，对最lhzdmla乘法的一种改进，它是参数估计的一种有偏估计，可以消除自变量间的多重共线性

· 偏最lhzdmla乘回归等

*决策树
采用自顶向下的递归方式，在内部节点进行属性值的比较，并根据不同的属性值从该节点向下分支，最终得到的叶节点是学习划分的类。

*人工神经网络
一种模仿大脑神经网络结构和功能而建立的信息处理系统，表示神经网络的输入与输出变量之间关系的模型。
贝叶斯网络
又称信度网络，是bayes方法的扩展，是目前不确定知识表达和推理领域最
有效的理论模型之一。
支持向量机
是一种通过某种非线性映射，把低维的非线性可分转化为高纬的线性可分，在高纬空间进行线性分析的算法。

2.聚类分析

*常用聚类分析算法
K-means聚类算法

3.关联规则

*常用聚类分析算法
Apriori算法

4.时序模式

*常用聚类分析算法
平稳时间序列分析
非平稳时间序列分析

4.偏差检测

*常用聚类分析算法
基于模型的离群点检测方法
基于聚类的离群点检测方法

5.智能推荐