《大数据挖掘及应用》学习笔记。
第一章大数据挖掘与应用概论
数据挖掘是对数据分析的提高。
1.1 大数据智能分析处理的普及和应用
1.1.1云计算(云计算) )。
云计算提供可用、方便的按需网络访问,访问可配置的计算资源共享池(包括网络、服务器、存储、APP应用程序和服务),并根据使用情况付费这些资源可以很少进行管理工作,也可以很少与服务提供商进行交互而快速提供。
1.1.2大数据(big data )。
或者,海量数据、海量数据、海量资料,是指相关数据量巨大到无法被人工或计算机以合理时间内人类解读的形式拦截、管理、处理、整理的信息。
1.2 大数据的发展及挑战
1.2.1大数据发展催生三元空间世界
集中:物理空间
二元:社会空间
三元:数据空间
什么是5V :
velocity—实时
多样性—多样性
value—价值巨大
验证—完整性
卷-卷很大
具体表现在数据量大、种类多、变化速度快、价值密度低(处理前)、对定时性要求高等方面。
1.2.2大数据智能分析处理面临的挑战
-1.系统平台端
大数据处理与硬件协同大数据集到大数据隐私大数据能耗大数据管理-2.分析处理方面
大数据大数据实时性大数据采样大数据不一致性大数据超高维性大数据不确定性1.3 数据挖掘概述
1.3.1基本步骤:
提前准备:目标定义、数据获取、数据搜索
1 .数据清理2 .数据整合3 .数据选择4 .数据转换5 .数据挖掘6 .模式评估7 .知识表示1.3.2数据挖掘的功能
数据挖掘分为描述性任务和预测性任务。
说明性任务:
聚类:将数据对象划分为子集。 相关性分析:找出数据中值的相关性和相关性。 数据总结:浓缩数据,给出紧凑的描述。 偏差检测:寻找观测结果和参考值之间有意义的差异,对少数极端分析对象说明原因并加以说明。 预测任务:
分类:提取刻画了重要数据类的模型。 预测:把握分析对象发展规律,预见未来趋势。 1.3.3数据挖掘运用的技术
统计学机器学习数据库和数据仓库信息检索可视化1.4 大数据挖掘的计算框架
1.4.1大数据挖掘计算框架(主流体系结构和核心组件) )。
目前,在大数据处理领域已经形成了以Hadoop、Spark等为代表的大数据生态圈。
Hadoop框架的最中心设计是HDFS和MapReduce。 HDFS提供大量数据的存储,MapReduce提供大量数据的计算。 Hadoop可以在同一数据上同时执行不同类型的分析工作。
Spark提供的基于RDD的一体化解决方案将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等型号整合到一个平台上,实现了一致的application
MapReduce和Spark计算框架的简单比较:
1.4.2大数据挖掘处理的基本流程
(数据挖掘过程和工具的组合)
(1)数据采集:
必须从客户服务方(Web、App或传感器格式等)接收数据,并在收集方部署大量数据库,才能支持。 代表性工具: Flume、Kafka等。
)2)数据存储:
通过Hadoop的扩展和封装,实现互联网大数据的存储和分析。 典型工具: HDFS文件系统、Hbase列数据库等。
(3) ETL :
将来自前端的数据导入大型数据库或分布式存储群集,并在此基础上进行简单的清洗和预处理。 典型工具:能够满足Sqoop、Data X等不同平台的数据清洗、导入导出等需求。
(4)数据计算
利用分布式数据库或分布式计算集群,对存储在其中的大量数据进行一般分析、分类汇总等。 代表性工具: MapReduce分布式并行计算框架、Spark内存计算模型、Impala大数据交互查询分析框架等。
)5)数据分析与挖掘
在已有数据的基础上进行基于算法等的计算,产生预测的效果,实现一些高层次数据分析的需求。 代表性工具: Mahout、MLlib等数据挖掘和机器学习工具。
)6)数据可视化
解读数据之间的关系,明确有效地传递数据信息,进行交流。 数据可视化已经融入大数据分析处理的全过程,形成了基于数据特征、面向数据处理过程、面向数据分析结果等多方面的大数据,但属于分析理论。 代表性工具或组件: D3.js、ECharts等。