hadoop集群架构图,简述hadoop原理

通过本阶段的研究总结，从内部机制的角度进行详细分析，了解HDFS、MapReduce、Hbase、Hive是如何工作的，以及基于Hadoop数据仓库的构建和分布式数据库内部的具体实现。如果有不足的话，之后马上改正。

HDFS架构

Hadoop的整体架构主要通过HDFS实现分布式存储的基础支持，通过MR实现分布式并行任务处理的程序支持。

HDFS采用主/从结构模型，一个HDFS群集由一个NameNode和多个DataNode组成。 (最新的hadoop2.2版本提供了多个NameNode配置。这也是一些大公司通过修改Hadoop源代码实现的功能，在最新版本中已经实现。NameNode作为主服务器管理文件系统的名称空间和客户端对文件的访问。 DataNode管理保存的数据。 HDFS支持文件格式的数据。

在内部，文件被划分为多个数据块，这些数据块存储在DataNode组中。 NameNode执行文件系统命名空间，如打开、关闭和重命名文件和目录，还负责将数据块映射到特定的DataNode。 DataNode处理文件系统客户端的文件读写，并在NameNode的集成时间表下创建、删除和复制数据库。 NameNode是所有HDFS元数据的管理员，用户数据决不通过NameNode。