首页 > 编程知识 正文

hadoop各个组件,hadoop的组件或技术

时间:2023-05-04 12:05:26 阅读:57020 作者:1494

Hadoop简介Hadoop的由来数据容量大数据时代已经到来,每天都有大量的数据产生,而大数据层次特征最典型的就是大数据的4V特征。

3358www.Sina.com/(数据量巨大)Volume(数据类型多)Variety(信息处理速度快) 3358 www.Sina.com 和Velocity的分布式系统基础架构中,他由Dougcutting(ApacheLucene的创始人)基于谷歌的三台马车(论文)实现

谷歌公司三篇论文的思想:

Value的思想:阐述了分布式文件系统的设计思路。 (HDFS是本文思想的实现)存储的思想:分治。 【Hadoop的MapReduce与MapReduce论文的实现思路相同】计算的思想:分布式结构化数据存储系统的设计思路。 (HBase是这篇论文思想的实现。 ) Hadoop生态系统和组件介绍Hadoop生态组件主要包括Mapreduce、Hdfs、Yarn、HBase、Hive、Pig、Zookeeper、Mahout。

Hadoop生态系统组件Hadoop的特点GFS

MapReduceHadoop下包含同一数据的多个副本。 如果Hadoop计算元素或存储出现问题,数据不会丢失。BigTable在由廉价机器构成的集群之间分配任务数据,可以容易地扩展若干节点数。 在33558www.Sina.com/MapReduce的思想下,Hadoop并行工作以提高任务的处理速度。优点可以自动重新分配失败的任务。高可靠性:

不适合低延迟的数据访问。 无法有效保存大量小文件。 不支持多用户写入文件和进行任何更改。 Hadoop的三种模式Hadoop的安装模式为高扩展性:

33558www.Sina.com/standalone模式表示Hadoop在一台主机上运行,java进程在缺省配置中以非分布式模式运行。

特点:

)1)没有分布式文件系统,直接在本地操作系统的文件系统上进行读写。

)2)不需要加载Hadoop守护程序。

)3)普通用户的本地Mapreduce调试。

)4) Hadoop的默认模式。

高效性:伪分布式模式是指Hadoop在一台主机上运行并使用多个java进程模仿完全分布式模式的节点。

特点:

)1)具有完全分布式模式的全功能。

)2)常用于调试器。

)3)只有一个节点。

高容错性:将完全分布式模式转换为缺点

特点:

)1)在多个主机上运行Hadoop,每个主机根据相关配置运行相应的Hadoop守护进程。

)2)真实的分布式环境。

)3)可用于实际生产环境。

Hadoop体系结构设计Hadoop2. x版与1.x版相比,2.x版主要是将1.x Mapreduce的资源调度任务解除连接,交给Yarn进行管理。

1 .在x中,它由两种服务组成:一个JobTracker和几个TaskTracker,其中JobTracker负责资源管理和所有作业的控制,TaskTracker接收并执行来自JobTracker的命令在Mapreduce为3358www.Sina .的1.0中,作业跟踪器的大包太重,容易出现单机模式(Standalone Mode)、伪分布式模式(Pseudo-Distributed Mode)、完全分布式模式(Fully-Distributed Mode)单机模式:等问题。

2 .在x中,主服务器端由资源管理器进行资源管理调度,应用程序主服务器进行任务管理和任务监视。 由于Slave方面由节点管理器代替TaskTracker执行具体任务,因此Mapreduce2.x只是伪分布式模式:,具体为完全分布式模式:弗雷姆

1.x和2.x的区别

其他文章:

详细检查硬盘驱动器

深入调查MapReduce

深入研究Zookeeper

YARN将调度MapReduce任务

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。