分布式大数据平台(分布式数据存储是什么意思)

Hadoop群集中的节点主要是什么？

Hadoop有什么特性？

Hadoop生态系统和各部分的具体功能是什么？

fs.default.name是否设置为该文件？

列举独立模式和伪分布模式的不同点。

1、解：

基本的Hadoop群集节点主要包括：

NameNode负责协调集群中的数据存储

DataNode :存储分割的数据块

作业跟踪程序：协调数据计算任务

任务跟踪器：执行作业跟踪器分配的任务

辅助名称—帮助NameNode收集文件系统的操作状态信息

2、解：

Hadoop是一个可分布式处理大量数据的软件框架，以可靠、高效、可伸缩的方式处理，具有以下特点：

高可靠性；

效率性；

高可扩展性；

容错性高；

低成本；

可在Linux平台上运行；

支持多种编程语言。

3、解：

Hadoop生态系统，包括HDFS、YARN、ZooKeeper、Hbase、Flume、Sqoop、MapReduce、Tez、Spark、Hive、Pig、Oozie、Ambari等。

HDFS是Hadoop项目中最基础的存储部分，它引用了谷歌的GFS，全称是Hadoop分布式文件系统。为Hadoop提供了分布式文件系统。

YARN、Yet another Resource Negotiator和另一个资源协调员。作为Hadoop中的资源管家，YARN负责集群的资源管理和调度功能。

ZooKeeper用于协调任务的进度并提供分布式协调一致性服务。

Hbase，分布式列族数据库。 Hbase用作基于HDFS的存储，存储非结构化数据。

Flume是一个高可用性、可靠、分布式的大量日志收集、聚合和传输系统。

Sqoop主要用于在Hadoop和传统数据库之间交换数据。

MapReduce是一个计算模型。 MapReduce将工作分为Map部分和Reduce部分两部分。 Map部分对任务进行划分，将任务分成时尚的杯子任务，分发给不同的机器进行应对处理； Reduce部从各节点回收Map处理过的数据，进行汇总得到最终的结果。 MapReduce并不适合所有任务。例如，由于某些任务无法归类为MapReduce，或者MapReduce难度太大，Hadoop还引入了其他计算模型。

Tez是Hadoop在YARN上运行的新一代Hadoop查询处理框架。

Spark是一个类似于Hadoop MapReduce的计算框架。 Spark提供了Spark Core、Spark Streaming、Spark SQL和GraphX等计算模式，并使用内存保留的中间结果来提高计算效率。

Hive，Hadoop上的数据仓库。用于提取、转换和加载数据。这是一种可以存储、查询和分析存储在Hadoop中的大数据的机制。

Pig、Hadoop数据操作客户端的数据分析引擎采用一定的语法操作HDFS。

Oozie是Hadoop的Java web APP应用程序，在Java servlet容器中执行。配置Oozie工作流以控制一系列依赖于DAG的操作，并将多个MapReduce任务合并到一个逻辑工作区中，从而完成更大的任务。

用于创建、管理和监视整个Ambari和Hadoop生态圈的工具。

4、解：

位于hadoop安装路径conf文件夹下的core-site.xml文件。

5、解：

相同点：均可进行硬件操作；都有NameNode。

不同之处：

在独立模式下，不需要更改配置文件。单个Java进程，没有DataNode。

在伪分布式模式下，需要修改配置文件，运行多个Java进程，并且本机包含DataNode。