大数据 Hadoop的生态系统和组件

MapReduce

主要来自谷歌资源，是简化大数据处理，并行、分布式处理的编程模型。

hadoop2.0是基于YARN框架构建的。 YARN的全名是yet-another -资源- negotiator。 Yarn可以应用于S3|Spark等。

HDFS

它来自谷歌文件系统，全名是Hadoop分布式文件系统，是Hadoop的分布式文件系统，由许多机器构成，可以存储大数据文件。

它由NameNode和DataNode组成，可以配置为高可用性(HA )以避免单点故障。一般用Zookeeper处理。两个NameNode正在同步。

海威

在Hadoop数据仓库(DW )中，可以使用语言如SQL的HSQL处理数据，非常方便。主要是OLAP )在线分析处理(on-lineanalyticalprocessing )，用于数据的合并|查询|分析。

h基本型

来自谷歌bigtable。是Hadoop的数据库。 HBase的基础是利用仍在使用的Hadoop的HDFS作为文件存储系统，可以利用Hadoop的MR处理HBase的数据，通常使用Zookeeper进行共同服务。

Zookeeper

Pig

提供在Hadoop中并行执行数据流的引擎。包含常见的数据操作，如join|sort|filter，并使用MR处理数据。

马霍特

那是机器学习库。提供可扩展的机器学习领域经典算法的实现，以帮助开发者更轻松、更快速地创建智能APP应用。 Mahout包括许多实现，如聚类、分类和推荐算法。