hadoop各个组件,hadoop的组件或技术

Hadoop简介Hadoop的由来数据容量大数据时代已经到来，每天都有大量的数据产生，而大数据层次特征最典型的就是大数据的4V特征。

3358www.Sina.com/(数据量巨大)Volume(数据类型多)Variety(信息处理速度快) 3358 www.Sina.com 和Velocity的分布式系统基础架构中，他由Dougcutting(ApacheLucene的创始人)基于谷歌的三台马车(论文)实现

谷歌公司三篇论文的思想：

Value的思想：阐述了分布式文件系统的设计思路。 (HDFS是本文思想的实现)存储的思想：分治。【Hadoop的MapReduce与MapReduce论文的实现思路相同】计算的思想：分布式结构化数据存储系统的设计思路。 (HBase是这篇论文思想的实现。 ) Hadoop生态系统和组件介绍Hadoop生态组件主要包括Mapreduce、Hdfs、Yarn、HBase、Hive、Pig、Zookeeper、Mahout。

Hadoop生态系统组件Hadoop的特点GFS

MapReduceHadoop下包含同一数据的多个副本。如果Hadoop计算元素或存储出现问题，数据不会丢失。BigTable在由廉价机器构成的集群之间分配任务数据，可以容易地扩展若干节点数。在33558www.Sina.com/MapReduce的思想下，Hadoop并行工作以提高任务的处理速度。优点可以自动重新分配失败的任务。高可靠性：

不适合低延迟的数据访问。无法有效保存大量小文件。不支持多用户写入文件和进行任何更改。 Hadoop的三种模式Hadoop的安装模式为高扩展性：

33558www.Sina.com/standalone模式表示Hadoop在一台主机上运行，java进程在缺省配置中以非分布式模式运行。

特点：

)1)没有分布式文件系统，直接在本地操作系统的文件系统上进行读写。

)2)不需要加载Hadoop守护程序。

)3)普通用户的本地Mapreduce调试。

)4) Hadoop的默认模式。

高效性：伪分布式模式是指Hadoop在一台主机上运行并使用多个java进程模仿完全分布式模式的节点。

特点：

)1)具有完全分布式模式的全功能。

)2)常用于调试器。

)3)只有一个节点。

高容错性：将完全分布式模式转换为缺点

特点：

)1)在多个主机上运行Hadoop，每个主机根据相关配置运行相应的Hadoop守护进程。

)2)真实的分布式环境。

)3)可用于实际生产环境。

Hadoop体系结构设计Hadoop2. x版与1.x版相比，2.x版主要是将1.x Mapreduce的资源调度任务解除连接，交给Yarn进行管理。

1 .在x中，它由两种服务组成：一个JobTracker和几个TaskTracker，其中JobTracker负责资源管理和所有作业的控制，TaskTracker接收并执行来自JobTracker的命令在Mapreduce为3358www.Sina .的1.0中，作业跟踪器的大包太重，容易出现单机模式（Standalone Mode）、伪分布式模式（Pseudo-Distributed Mode）、完全分布式模式（Fully-Distributed Mode）、单机模式：等问题。

2 .在x中，主服务器端由资源管理器进行资源管理调度，应用程序主服务器进行任务管理和任务监视。由于Slave方面由节点管理器代替TaskTracker执行具体任务，因此Mapreduce2.x只是伪分布式模式：，具体为完全分布式模式：弗雷姆

1.x和2.x的区别

其他文章：

详细检查硬盘驱动器

深入调查MapReduce

深入研究Zookeeper

YARN将调度MapReduce任务