Hadoop群集中的节点主要是什么?
Hadoop有什么特性?
Hadoop生态系统和各部分的具体功能是什么?
fs.default.name是否设置为该文件?
列举独立模式和伪分布模式的不同点。
1、解:
基本的Hadoop群集节点主要包括:
NameNode负责协调集群中的数据存储
DataNode :存储分割的数据块
作业跟踪程序:协调数据计算任务
任务跟踪器:执行作业跟踪器分配的任务
辅助名称—帮助NameNode收集文件系统的操作状态信息
2、解:
Hadoop是一个可分布式处理大量数据的软件框架,以可靠、高效、可伸缩的方式处理,具有以下特点:
高可靠性;
效率性;
高可扩展性;
容错性高;
低成本;
可在Linux平台上运行;
支持多种编程语言。
3、解:
Hadoop生态系统,包括HDFS、YARN、ZooKeeper、Hbase、Flume、Sqoop、MapReduce、Tez、Spark、Hive、Pig、Oozie、Ambari等。
HDFS是Hadoop项目中最基础的存储部分,它引用了谷歌的GFS,全称是Hadoop分布式文件系统。 为Hadoop提供了分布式文件系统。
YARN、Yet another Resource Negotiator和另一个资源协调员。 作为Hadoop中的资源管家,YARN负责集群的资源管理和调度功能。
ZooKeeper用于协调任务的进度并提供分布式协调一致性服务。
Hbase,分布式列族数据库。 Hbase用作基于HDFS的存储,存储非结构化数据。
Flume是一个高可用性、可靠、分布式的大量日志收集、聚合和传输系统。
Sqoop主要用于在Hadoop和传统数据库之间交换数据。
MapReduce是一个计算模型。 MapReduce将工作分为Map部分和Reduce部分两部分。 Map部分对任务进行划分,将任务分成时尚的杯子任务,分发给不同的机器进行应对处理; Reduce部从各节点回收Map处理过的数据,进行汇总得到最终的结果。 MapReduce并不适合所有任务。 例如,由于某些任务无法归类为MapReduce,或者MapReduce难度太大,Hadoop还引入了其他计算模型。
Tez是Hadoop在YARN上运行的新一代Hadoop查询处理框架。
Spark是一个类似于Hadoop MapReduce的计算框架。 Spark提供了Spark Core、Spark Streaming、Spark SQL和GraphX等计算模式,并使用内存保留的中间结果来提高计算效率。
Hive,Hadoop上的数据仓库。 用于提取、转换和加载数据。 这是一种可以存储、查询和分析存储在Hadoop中的大数据的机制。
Pig、Hadoop数据操作客户端的数据分析引擎采用一定的语法操作HDFS。
Oozie是Hadoop的Java web APP应用程序,在Java servlet容器中执行。 配置Oozie工作流以控制一系列依赖于DAG的操作,并将多个MapReduce任务合并到一个逻辑工作区中,从而完成更大的任务。
用于创建、管理和监视整个Ambari和Hadoop生态圈的工具。
4、解:
位于hadoop安装路径conf文件夹下的core-site.xml文件。
5、解:
相同点:均可进行硬件操作; 都有NameNode。
不同之处:
在独立模式下,不需要更改配置文件。 单个Java进程,没有DataNode。
在伪分布式模式下,需要修改配置文件,运行多个Java进程,并且本机包含DataNode。