首页 > 编程知识 正文

分布式大数据平台(分布式数据存储是什么意思)

时间:2023-05-06 03:47:34 阅读:77096 作者:1196

Hadoop群集中的节点主要是什么?

Hadoop有什么特性?

Hadoop生态系统和各部分的具体功能是什么?

fs.default.name是否设置为该文件?

列举独立模式和伪分布模式的不同点。

1、解:

基本的Hadoop群集节点主要包括:

NameNode负责协调集群中的数据存储

DataNode :存储分割的数据块

作业跟踪程序:协调数据计算任务

任务跟踪器:执行作业跟踪器分配的任务

辅助名称—帮助NameNode收集文件系统的操作状态信息

2、解:

Hadoop是一个可分布式处理大量数据的软件框架,以可靠、高效、可伸缩的方式处理,具有以下特点:

高可靠性;

效率性;

高可扩展性;

容错性高;

低成本;

可在Linux平台上运行;

支持多种编程语言。

3、解:

Hadoop生态系统,包括HDFS、YARN、ZooKeeper、Hbase、Flume、Sqoop、MapReduce、Tez、Spark、Hive、Pig、Oozie、Ambari等。

HDFS是Hadoop项目中最基础的存储部分,它引用了谷歌的GFS,全称是Hadoop分布式文件系统。 为Hadoop提供了分布式文件系统。

YARN、Yet another Resource Negotiator和另一个资源协调员。 作为Hadoop中的资源管家,YARN负责集群的资源管理和调度功能。

ZooKeeper用于协调任务的进度并提供分布式协调一致性服务。

Hbase,分布式列族数据库。 Hbase用作基于HDFS的存储,存储非结构化数据。

Flume是一个高可用性、可靠、分布式的大量日志收集、聚合和传输系统。

Sqoop主要用于在Hadoop和传统数据库之间交换数据。

MapReduce是一个计算模型。 MapReduce将工作分为Map部分和Reduce部分两部分。 Map部分对任务进行划分,将任务分成时尚的杯子任务,分发给不同的机器进行应对处理; Reduce部从各节点回收Map处理过的数据,进行汇总得到最终的结果。 MapReduce并不适合所有任务。 例如,由于某些任务无法归类为MapReduce,或者MapReduce难度太大,Hadoop还引入了其他计算模型。

Tez是Hadoop在YARN上运行的新一代Hadoop查询处理框架。

Spark是一个类似于Hadoop MapReduce的计算框架。 Spark提供了Spark Core、Spark Streaming、Spark SQL和GraphX等计算模式,并使用内存保留的中间结果来提高计算效率。

Hive,Hadoop上的数据仓库。 用于提取、转换和加载数据。 这是一种可以存储、查询和分析存储在Hadoop中的大数据的机制。

Pig、Hadoop数据操作客户端的数据分析引擎采用一定的语法操作HDFS。

Oozie是Hadoop的Java web APP应用程序,在Java servlet容器中执行。 配置Oozie工作流以控制一系列依赖于DAG的操作,并将多个MapReduce任务合并到一个逻辑工作区中,从而完成更大的任务。

用于创建、管理和监视整个Ambari和Hadoop生态圈的工具。

4、解:

位于hadoop安装路径conf文件夹下的core-site.xml文件。

5、解:

相同点:均可进行硬件操作; 都有NameNode。

不同之处:

在独立模式下,不需要更改配置文件。 单个Java进程,没有DataNode。

在伪分布式模式下,需要修改配置文件,运行多个Java进程,并且本机包含DataNode。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。