首页 > 编程知识 正文

hadoop大数据技术与应用答案,hadoop大数据原理与应用答案

时间:2023-05-03 23:10:12 阅读:53018 作者:4124

Hadoop是一个开源、运行在大型计算机集群上的分布式计算平台,可以存储和处理分析大量数据,作为行业大数据标准开源软件而闻名,广泛应用于行业。

文章1、Hadoop概述1、Hadoop概述2、Hadoop特性3、Hadoop版本2、Hadoop生态系统1、Hadoop存储系统2、Hadoop计算框架3、Hadoop数据窗口

Hadoop是由Apache基金会开发的分布式计算平台,可以分布式处理计算机群集中的大型数据集。 Hadoop基于Java语言开发,具有良好的跨平台特性,可以部署在廉价的计算机集群上。Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和分布式计算框架MapReduce。

Hadoop这个名称的由来,没有什么深意,只是追求名称的简短、发音的容易、记忆的容易。 Hadoop原本是孩子给“吃饱的褐色大象”取的名字。 请参考下图。

2. Hadoop的特性Hadoop是一个能够分布式处理大量数据的软件框架,以可靠、高效、可伸缩的方式处理。 具有以下特征。

高可靠性。 通过采用冗馀数据存储方式,即使一个拷贝发生故障,其他拷贝也可以正常对外提供服务。 效率。 作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大关键技术,能够有效处理Pb级数据。 高度可扩展性。 Hadoop的设计目标是在廉价的计算机群集上高效稳定地运行,并可扩展到数千个计算机节点。 高容错性。 采用冗馀数据存储方法,可以自动存储数据的多个副本,并自动重新分配失败的任务。 成本低。 Hadoop采用廉价的计算机集群,成本相对较低,普通用户也容易在自己的PC上构建Hadoop运行环境。 3.Hadoop版本Apache Hadoop目前有三代,分别为Hadoop 1.0、Hadoop 2.0、Hadoop 3.0。 Hadoop 1.0支持0.20.x、0.21.x和0.22.x版本,主要组件是分布式文件系统(HDFS )和脱机计算框架(MapReduce )。 支持Hadoop 2.0的版本为0.23.x和2.x,Hadoop 2.0主要添加了YARN和HDFS Federation,以支持多种计算框架并向外扩展HDFS主节点。 Hadoop 3.0增强了YARN和HDFS的高可用性,并支持云计算平台。

二、Hadoop生态系统1.Hadoop存储系统(1)分布式文件系统(HDFS ) )。

Hadoop分布式文件系统(HDFS )是Hadoop的两个主要核心之一。 HDFS是使用Java实现的分布式、可向外扩展的分布式文件系统,是基于谷歌发布的GFS论文设计开发的,由谷歌分布式文件系统(Google File System,GFS )组成

HDFS可以使用流数据访问模式存储在通用X86服务器上运行的大文件。 由于HDFS在访问APP应用程序数据时具有较高的吞吐量,因此对于大型数据集的APP应用程序,建议选择HDFS作为底层存储。

)2)分布式数据库(HBase ) ) ) ) )。

HBase是来源于谷歌论文Bigtable的高可靠性、高性能、可伸缩性、实时读写、分布式的列数据库。 HBase是非关系数据库,既适用于结构化数据存储,也适用于非结构化数据存储。 HBase是基于列的模式,而不是基于行的模式,传统的关系数据库使用原始存储。 HBase使用Hadoop HDFS作为文件存储系统,HDFS MapReduce处理大量数据,ZooKeeper作为协作服务。

2.Hadoop计算框架(1)脱机计算框架(MapReduce ) )。

Hadoop MapReduce是GoogleMapReduce的开源实现,MapReduce是用于大数据集(1TB或更大)并行计算的编程模型,它将在大集群上运行的复杂并行计算过程称为“Map “映射”是单独处理子问题,给出中间结果; “Reduce”将子问题处理后的中间结果汇总处理,并给出最终结果。 此外,用户还可以在不知道分布式系统的基础细节的情况下开发并行APP应用程序,并在廉价的计算机群集上运行,以完成大量数据的处理。

)2)资源管理系统(YARN ) )。

以太网资源中心(yarn )是Hadoop 2.0的资源管理调度系统。 这是一个通用的资源管理模块,为上层APP应用程序提供统一的资源管理和调度。

YARN可以统一管理多个计算框架,除了MapReduce框架外,还可以支持Spark、Storm等其他框架,具有资源利用率高、运输成本低、数据共享方便等优点

3.Hadoop数据仓库Hive是一个基于Hadoop的数据仓库工具,它将结构化数据文件映射到数据库表并提供类SQL查询功能。 Hive操作的本质是s类

QL语句转换为MapReduce程序。

4.Hadoop数据转换与日志处理

(1)数据转换工具(Sqoop)
Sqoop是SQL-to-Hadoop的缩写,用于在Hadoop和结构化数据存储(如关系型数据库和大型主机)之间高效传输批量数据的工具。通过Sqoop可以方便地将数据从MySQL、Oracle等关系数据库中导入Hadoop(可以导入HDFS、HBase或Hive),或者将数据从Hadoop导出到关系数据库。
(2)日志处理系统(Flume)
Flume是cloudera提供的一种分布式的、高可靠的、高可用的,用于高效收集、聚合和移动大量日志数据的系统。它使用基于数据流的简单灵活的架构。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时它也是具有提供对数据进行简单处理,并写到各种数据接收方的能力。

5.Hadoop应用协调与工作流

(1)分布式协调服务(ZooKeeper)
ZooKeeper是对Google Chubby的开源实现,是Hadoop的一个子项目。ZooKeeper是一个分布式协调服务,可以为分布式应用程序提供配置维护、域名服务、分布式同步等服务,从而减轻分布式应用程序所承担的协调服务。
(2)工作流调度程序(Oozie)
Oozie是一种Java web应用程序,它是基于管理Apache Hadoop作业的工作流调度系统。Oozie工作流(Workflow)是放置在控制依赖DAG(有向无环图)中的一组动作(Action)集合,DAG的使用可确保后续操作在前面的操作已成功完成后才会启动。

6.大数据消息订阅

Kafka是一种高吞吐量的分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka主要用于处理活跃的流式数据,具有以下三个关键功能:发布和订阅信息流(在这方面,它类似于消息队列或企业消息系统),以容错方式存储信息流和处理信息流。

总结

本节介绍了hadoop的概念以及hadoop生态系统,本篇文章借鉴了下面两本大数据书籍,在此郑重感谢。

《大数据技术原理与应用(第2版)》 专一的丝袜编著
《大数据原理与技术》 wndgb编著

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。