首页 > 编程知识 正文

综合实践业务笔记(实践笔记)

时间:2023-05-05 02:07:12 阅读:66967 作者:1623

数据挖掘概论

1 .数据挖掘语义数据采集和存储技术的发展,使各组织能够积累大量数据。 但是,由于数据量太大,传统的数据分析工具和技术不再适用,因此有必要开发处理数据的新方法。

数据挖掘(data mining )是一个利用一系列技术和方法从海量数据中发现潜在有用的新知识的过程。 在海量的数据中找到有价值的知识就像在沙堆里淘金,给人留下的印象叫做数据挖掘。

2 .相关概念辨析知识发现与数据挖掘:

数据挖掘是知识发现(知识发现)的核心,是其中的一个步骤。 完整的知识发现包括:数据准备; 数据挖掘结果表达与解释数据挖掘、机器学习和人工智能:

人工智能(artificial intelligence )是指人制造的机器所表现的智能。 判断机器是否智能地采用了图灵测试。 人工智能的核心是构建接近或超过人类的推理、知识、计划、学习、交流、感知、转移物品、使用工具、操作机器的能力等。

机器学习(machine learning )是人工智能发展到一定阶段的必然产物,也是人工智能的分支。 机器学习的目标是使计算机系统具有人的学习能力,实现人的“智能”。 机器学习是数据挖掘的技术支撑之一,而数据挖掘依赖于数据库和数据仓库技术。

3 .数据挖掘基本任务数据挖掘的基本任务包括分类与预测、聚类分析、关联分析、异常检测等,大致分为预测任务和描述任务两种。预测任务:根据使用样本属性和样本值训练的模型,结合特定样本属性预测与该样本相对应的值。描述任务:探索目标数据集中隐藏的联系和模式,可以简单地理解为寻找数据集中隐藏的规律。

4 .数据挖掘过程 明确目标:首先要熟悉业务背景,根据问题的实际情况和用户的真实需求最终解决哪些问题,需要得到什么样的结果。

数据收集:确定数据挖掘目标后,确定需要收集哪些数据。 在数据收集中,维度不是越多或越少越好。 选择数据有三个标准:相关性、可靠性和有效性。 此外,数据质量也非常重要。

数据探索:数据搜索是指通过数据集数据质量的验证、制图、数据特征量的计算等手段,尽可能掌握样本的所有数据特征。 数据搜索主要包括异常值分析、缺失值分析、相关分析和周期性分析等。

数据预处理:在数据分析之前对数据进行预处理,以使数据结构和类型满足建模要求。 数据预处理包括缺损值的处理、数据标准化(判断是否标准化)、异常值检测)寻找离群点)、数据维度处理)数据维度过多,需要主成分分析法)。

挖掘建模:挖掘建模是数据挖掘的核心环节,对数据进行分析和挖掘。

模型评价:模型的评价需要根据具体模型,采用相应的指标进行评价。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。