首页 > 编程知识 正文

数据挖掘的发展历史(数据挖掘基础)

时间:2023-05-03 06:52:39 阅读:66931 作者:2825

社会发展进入网络信息时代,各种形式的数据大量产生,这些数据背后隐藏着许多重要的信息,如何从这些数据中找到某种规律、发现有用的信息越来越受到关注。 为了适应信息处理的新需要和社会发展各方面的迫切需要,发展了一种称为数据挖掘的新的信息分析技术。 数据挖掘是从大量、不完整、有噪声、模糊、随机的实用数据中提取隐藏在其中的、人们事先不知道但潜在有用的信息和知识的过程。

一、数据挖掘对象

数据挖掘可以是任何类型的数据。 也就是说,可以从社会科学、自然科学、卫星观测中得到。 数据的格式和结构也各不相同,可以是传统的关系数据库,也可以是面向对象的高级数据库系统,还可以是空间数据库、时序数据库、文本数据库和多媒体数据库等特殊的数据库

二、数据挖掘任务

数据挖掘的目标是从大量数据中发现隐含而有意义的知识。 其任务主要包括分类、预测、时间序列模式、聚类分析、相关分析预测和偏差分析等。

1 .分类。 分类是根据一定标准将数据对象分为不同类别的过程。

2 .预测。 预测是通过分析历史数据找出规律,建立模型,通过模型分析未来数据的种类和特征。

3 .时间序列模式。 时间序列模式是基于数据对象的时间变化规律和趋势来预测未来的值。

4 .聚类分析。 聚类分析是在没有给出分类类的情况下基于数据信息的相似度来收集数据的方法。

5 .相关分析预测。 关联分析是指分析大量数据,从中发现满足一定支持度和可靠性的数据项之间的关联规则。

6 .偏差分析。 偏置分析是通过分析数据库中的孤立点数据来查找有价值和意义的信息。

三、数据挖掘过程

数据挖掘使用一定的算法从实用数据中提取未知的有价值的模式和规律等知识。 整个过程由数据准备、数据挖掘、模式评估、知识增强和知识利用等步骤组成。

1 .数据准备。 数据挖掘的处理对象是数据,这些数据一般存储在数据库系统中,是长期积累的结果。 但是,它们往往不适合直接对这些数据进行知识挖掘,必须首先清除与数据噪声和挖掘主题明显无关的数据,然后将来自多个数据源的相关数据组合起来; 然后,将数据转换为便于数据挖掘的数据存储格式就是数据准备。

2 .数据挖掘。 数据挖掘是基于数据挖掘的目标,选择合适的算法和参数,分析准备的数据,生成特定的模式或数据集,得到可能形成知识的模式模型。

3 .模式评估。 挖掘算法生成的模式规律,如果没有实际意义或没有实用价值,不能准确反映数据的真实意义,甚至有时与事实相反,需要对其进行评价,从挖掘结果中筛选出有意义的模式规律在这个过程中,为了得到更有效的知识,有时会返回到以前的处理步骤反复提取,提取更有效的知识。 【摘要】数据挖掘技术为应对信息爆炸,处理海量信息提供了科学有效的手段。 本文介绍了数据挖掘的概念、对象、任务、流程、方法和应用领域。

【关键词】数据挖掘信息分析提取知识

社会发展进入网络信息时代,各种形式的数据大量产生,这些数据背后隐藏着许多重要的信息,如何从这些数据中找到某种规律、发现有用的信息越来越受到关注。 为了适应信息处理的新需要和社会发展各方面的迫切需要,发展了一种称为数据挖掘的新的信息分析技术。 数据挖掘是从大量、不完整、有噪声、模糊、随机的实用数据中提取隐藏在其中的、人们事先不知道但潜在有用的信息和知识的过程。

一、数据挖掘对象

数据挖掘可以是任何类型的数据。 也就是说,可以从社会科学、自然科学、卫星观测中得到。 数据的格式和结构也各不相同,可以是传统的关系数据库,也可以是面向对象的高级数据库系统,还可以是空间数据库、时序数据库、文本数据库和多媒体数据库等特殊的数据库

二、数据挖掘任务

数据挖掘的目标是从大量数据中发现隐含而有意义的知识。 其任务主要包括分类、预测、时间序列模式、聚类分析、相关分析预测和偏差分析等。

1 .分类。 分类是根据一定标准将数据对象分为不同类别的过程。

2 .预测。 预测是通过分析历史数据找出规律,建立模型,通过模型分析未来数据的种类和特征。

3 .时间序列模式。 时间序列模式是基于数据对象的时间变化规律和趋势来预测未来的值。

4 .聚类分析。 聚类分析是在没有给出分类类的情况下基于数据信息的相似度来收集数据的方法。

5 .相关分析预测。 关联分析是指分析大量数据,从中发现满足一定支持度和可靠性的数据项之间的关联规则。

6 .偏差分析。 偏置分析是通过分析数据库中的孤立点数据来查找有价值和意义的信息。

三、数据挖掘过程

数据挖掘使用一定的算法从实用数据中提取未知的有价值的模式和规律等知识。 整个过程由数据准备、数据挖掘、模式评估、知识增强和知识利用等步骤组成。

1 .数据准备。 数据挖掘的处理对象是数据,这些数据一般存储在数据库系统中

是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,首先要清除 数据噪声和与挖掘主题明显无关的数据;其次将来自多数据源中的相关数据组合并;然后将数据转换为易于进行数据挖掘的数据存储形式,这就是数据准备。 
2.数据挖掘。数据挖掘就是根据数据挖掘的目标,选取相应算法及参数,分析准备好的数据,产生一个特定的模式或数据集,从而得到可能形成知识的模式模型。 
3.模式评估。由挖掘算法产生的模式规律,存在无实际意义或无实用价值的情况,也存在不能准确反映数据的真实意义的情况,甚至在某些情况下与事实相反, 因此需要对其进行评估,从挖掘结果中筛选出有意义的模式规律。在此过程中,为了取得更为有效的知识,可能会返回前面的某一处理步骤中以反复提取,从而提取 出更有效的知识。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。