首页 > 编程知识 正文

数据挖掘的基本步骤及关键工作,数据挖掘技术工作

时间:2023-05-04 06:50:57 阅读:212753 作者:4857

数据挖掘技术基本任务 1.分类与预测2.聚类分析3.关联规则4.时序模式4.偏差检测5.智能推荐

1.分类与预测 定义
分类:构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别,分类模型建立在已有类标记的数据集上。
预测:建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
两步过程:通过训练集建立预测属性(数值型的)的函数模型;在模型通过检验后进行预测或控制。实现过程
(1)学习步
通过归纳分析训练样本集来建立分类模型得到分类规则
(2)分类步
先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测本集进行预测。常用的分类与预测算法
(1)定义
回归分析:确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。
(2)模型分类
*回归分析

· 线性回归
适用条件:呈线性关系,用最lhzdmla乘法求解模型系数

· 非线性回归
适用条件:呈非线性关系,用非线性最lhzdmla乘方法求解

· Logistic回归
适用条件:因变量一般有1和0(是否)两种取值
广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0和1之间,表示取值为1的概率

Logistic回归建模步骤:
a. 根据目的设置指标变量
b. 列车线性回归方程,估计模型回归系数
c. 进行模型检验
d. 模型应用

· 岭回归
适用条件 :参与建模的自变量之间具有多重共线性,是一种改进最lhzdmla乘估计的方法

· 主成分回归
适用条件:参与建模的自变量之间具有多重共线性
根据主成分分析的思想提出,对最lhzdmla乘法的一种改进,它是参数估计的一种有偏估计,可以消除自变量间的多重共线性

· 偏最lhzdmla乘回归等

*决策树
采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类。

*人工神经网络
一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型。
贝叶斯网络
又称信度网络,是bayes方法的扩展,是目前不确定知识表达和推理领域最
有效的理论模型之一。
支持向量机
是一种通过某种非线性映射,把低维的非线性可分转化为高纬的线性可分,在高纬空间进行线性分析的算法。

2.聚类分析

*常用聚类分析算法
K-means聚类算法

3.关联规则

*常用聚类分析算法
Apriori算法

4.时序模式

*常用聚类分析算法
平稳时间序列分析
非平稳时间序列分析

4.偏差检测

*常用聚类分析算法
基于模型的离群点检测方法
基于聚类的离群点检测方法

5.智能推荐

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。