一、大数据定义
大数据的一般分析维度:
1、数据量(大容量)数据量大
2、数据速度(效率)数据实时性
3、数据多样性(多态性)数据类型多种多样,既有以关系数据库数据为代表的结构化数据,也有以日志型数据为代表的非结构化数据,同时还有以音频、视频等为代表的多媒体非结构化数据。
4、低价值密度(低密度)数据量大,但高价值的米读相对较低,需要从海量数据中准确识别某人或事物在此短时间内的数据,并进行进一步的分析和处理。
5、真实性(信息有效性) )
二、大数据结构类型
大数据包括:
1、结构化
2、半结构化
3、准结构化
4、非结构化数据
结构化数据:一种二维数据表,通常以关系数据库为代表,通常用于各种网站和系统的后台。
半结构化数据:包括关系数据库和基于日志的纯文本数据
准结构化:可以理解为具有XML、HTML、JSON等一定的数据结构类型
非结构化数据:办公室文档、XML、HTML、JSON、各种报告、图像信息、音频信息、视频信息、服务器日志信息、纯文本数据等。
三、大数据处理平台基础设施
大数据平台基础架构中包括的基本能力组件:
1、数据聚合
2、文件存储
3、数据存储
4、API
5、数据分析与计算
6、平台管理与监控
四.大数据处理中的存储技术
1 .增加大数据存储容量
a、增加单磁盘容量
b .在多磁盘环境中提高整个系统的存储容量
2 .提高大数据存储吞吐量
a、分布式缓存
b、数据存储本地化
c、数据存储分布
d .分布式存储宽带化
e .提高分布式存储的I/O性能
f、提高分布式存储的并发性
五.大数据处理中的计算技术
1、多处理技术
2、并行计算
3、高并发计算
4、离线批量计算
5、在线实时计算
六、大数据处理容错
1、数据存储容错
1 )提高服务器磁盘的容错能力
硬件:磁盘镜像和磁盘双工
2 )提高基于冗馀的数据容错能力
典型场景:集群
3 )提高基于数据镜像的数据容错能力
方案:定期备份数据以形成数据镜像