hadoop大数据技术与应用答案,hadoop大数据原理与应用答案

Hadoop是一个开源、运行在大型计算机集群上的分布式计算平台，可以存储和处理分析大量数据，作为行业大数据标准开源软件而闻名，广泛应用于行业。

文章1、Hadoop概述1、Hadoop概述2、Hadoop特性3、Hadoop版本2、Hadoop生态系统1、Hadoop存储系统2、Hadoop计算框架3、Hadoop数据窗口

Hadoop是由Apache基金会开发的分布式计算平台，可以分布式处理计算机群集中的大型数据集。 Hadoop基于Java语言开发，具有良好的跨平台特性，可以部署在廉价的计算机集群上。Hadoop的核心是分布式文件系统（Hadoop Distributed File System，HDFS）和分布式计算框架MapReduce。

Hadoop这个名称的由来，没有什么深意，只是追求名称的简短、发音的容易、记忆的容易。 Hadoop原本是孩子给“吃饱的褐色大象”取的名字。请参考下图。

2. Hadoop的特性Hadoop是一个能够分布式处理大量数据的软件框架，以可靠、高效、可伸缩的方式处理。具有以下特征。

高可靠性。通过采用冗馀数据存储方式，即使一个拷贝发生故障，其他拷贝也可以正常对外提供服务。效率。作为并行分布式计算平台，Hadoop采用分布式存储和分布式处理两大关键技术，能够有效处理Pb级数据。高度可扩展性。 Hadoop的设计目标是在廉价的计算机群集上高效稳定地运行，并可扩展到数千个计算机节点。高容错性。采用冗馀数据存储方法，可以自动存储数据的多个副本，并自动重新分配失败的任务。成本低。 Hadoop采用廉价的计算机集群，成本相对较低，普通用户也容易在自己的PC上构建Hadoop运行环境。 3.Hadoop版本Apache Hadoop目前有三代，分别为Hadoop 1.0、Hadoop 2.0、Hadoop 3.0。 Hadoop 1.0支持0.20.x、0.21.x和0.22.x版本，主要组件是分布式文件系统(HDFS )和脱机计算框架(MapReduce )。支持Hadoop 2.0的版本为0.23.x和2.x，Hadoop 2.0主要添加了YARN和HDFS Federation，以支持多种计算框架并向外扩展HDFS主节点。 Hadoop 3.0增强了YARN和HDFS的高可用性，并支持云计算平台。

二、Hadoop生态系统1.Hadoop存储系统(1)分布式文件系统(HDFS ) )。

Hadoop分布式文件系统(HDFS )是Hadoop的两个主要核心之一。 HDFS是使用Java实现的分布式、可向外扩展的分布式文件系统，是基于谷歌发布的GFS论文设计开发的，由谷歌分布式文件系统(Google File System，GFS )组成

HDFS可以使用流数据访问模式存储在通用X86服务器上运行的大文件。由于HDFS在访问APP应用程序数据时具有较高的吞吐量，因此对于大型数据集的APP应用程序，建议选择HDFS作为底层存储。

)2)分布式数据库(HBase ) ) ) ) )。

HBase是来源于谷歌论文Bigtable的高可靠性、高性能、可伸缩性、实时读写、分布式的列数据库。 HBase是非关系数据库，既适用于结构化数据存储，也适用于非结构化数据存储。 HBase是基于列的模式，而不是基于行的模式，传统的关系数据库使用原始存储。 HBase使用Hadoop HDFS作为文件存储系统，HDFS MapReduce处理大量数据，ZooKeeper作为协作服务。

2.Hadoop计算框架(1)脱机计算框架(MapReduce ) )。

Hadoop MapReduce是GoogleMapReduce的开源实现，MapReduce是用于大数据集(1TB或更大)并行计算的编程模型，它将在大集群上运行的复杂并行计算过程称为“Map “映射”是单独处理子问题，给出中间结果； “Reduce”将子问题处理后的中间结果汇总处理，并给出最终结果。此外，用户还可以在不知道分布式系统的基础细节的情况下开发并行APP应用程序，并在廉价的计算机群集上运行，以完成大量数据的处理。

)2)资源管理系统(YARN ) )。

以太网资源中心(yarn )是Hadoop 2.0的资源管理调度系统。这是一个通用的资源管理模块，为上层APP应用程序提供统一的资源管理和调度。

YARN可以统一管理多个计算框架，除了MapReduce框架外，还可以支持Spark、Storm等其他框架，具有资源利用率高、运输成本低、数据共享方便等优点

3.Hadoop数据仓库Hive是一个基于Hadoop的数据仓库工具，它将结构化数据文件映射到数据库表并提供类SQL查询功能。 Hive操作的本质是s类

QL语句转换为MapReduce程序。

4.Hadoop数据转换与日志处理

（1）数据转换工具（Sqoop）
Sqoop是SQL-to-Hadoop的缩写，用于在Hadoop和结构化数据存储（如关系型数据库和大型主机）之间高效传输批量数据的工具。通过Sqoop可以方便地将数据从MySQL、Oracle等关系数据库中导入Hadoop（可以导入HDFS、HBase或Hive），或者将数据从Hadoop导出到关系数据库。
（2）日志处理系统（Flume）
Flume是cloudera提供的一种分布式的、高可靠的、高可用的，用于高效收集、聚合和移动大量日志数据的系统。它使用基于数据流的简单灵活的架构。Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时它也是具有提供对数据进行简单处理，并写到各种数据接收方的能力。

5.Hadoop应用协调与工作流

（1）分布式协调服务（ZooKeeper）
ZooKeeper是对Google Chubby的开源实现，是Hadoop的一个子项目。ZooKeeper是一个分布式协调服务，可以为分布式应用程序提供配置维护、域名服务、分布式同步等服务，从而减轻分布式应用程序所承担的协调服务。
（2）工作流调度程序（Oozie）
Oozie是一种Java web应用程序，它是基于管理Apache Hadoop作业的工作流调度系统。Oozie工作流（Workflow）是放置在控制依赖DAG（有向无环图）中的一组动作（Action）集合，DAG的使用可确保后续操作在前面的操作已成功完成后才会启动。

6.大数据消息订阅

Kafka是一种高吞吐量的分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka主要用于处理活跃的流式数据，具有以下三个关键功能：发布和订阅信息流（在这方面，它类似于消息队列或企业消息系统），以容错方式存储信息流和处理信息流。

总结

本节介绍了hadoop的概念以及hadoop生态系统，本篇文章借鉴了下面两本大数据书籍，在此郑重感谢。

《大数据技术原理与应用（第2版）》专一的丝袜编著
《大数据原理与技术》 wndgb编著