首页 > 编程知识 正文

大数据概论考试题及答案(互联网大数据处理技术与应用)

时间:2023-05-05 12:07:44 阅读:70778 作者:2878

一、大数据定义

大数据的一般分析维度:

1、数据量(大容量)数据量大

2、数据速度(效率)数据实时性

3、数据多样性(多态性)数据类型多种多样,既有以关系数据库数据为代表的结构化数据,也有以日志型数据为代表的非结构化数据,同时还有以音频、视频等为代表的多媒体非结构化数据。

4、低价值密度(低密度)数据量大,但高价值的米读相对较低,需要从海量数据中准确识别某人或事物在此短时间内的数据,并进行进一步的分析和处理。

5、真实性(信息有效性) )

二、大数据结构类型

大数据包括:

1、结构化

2、半结构化

3、准结构化

4、非结构化数据

结构化数据:一种二维数据表,通常以关系数据库为代表,通常用于各种网站和系统的后台。

半结构化数据:包括关系数据库和基于日志的纯文本数据

准结构化:可以理解为具有XML、HTML、JSON等一定的数据结构类型

非结构化数据:办公室文档、XML、HTML、JSON、各种报告、图像信息、音频信息、视频信息、服务器日志信息、纯文本数据等。

三、大数据处理平台基础设施

大数据平台基础架构中包括的基本能力组件:

1、数据聚合

2、文件存储

3、数据存储

4、API

5、数据分析与计算

6、平台管理与监控

四.大数据处理中的存储技术

1 .增加大数据存储容量

a、增加单磁盘容量

b .在多磁盘环境中提高整个系统的存储容量

2 .提高大数据存储吞吐量

a、分布式缓存

b、数据存储本地化

c、数据存储分布

d .分布式存储宽带化

e .提高分布式存储的I/O性能

f、提高分布式存储的并发性

五.大数据处理中的计算技术

1、多处理技术

2、并行计算

3、高并发计算

4、离线批量计算

5、在线实时计算

六、大数据处理容错

1、数据存储容错

1 )提高服务器磁盘的容错能力

硬件:磁盘镜像和磁盘双工

2 )提高基于冗馀的数据容错能力

典型场景:集群

3 )提高基于数据镜像的数据容错能力

方案:定期备份数据以形成数据镜像

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。