hadoop生态圈搭建,hadoop生态圈英文

很多开始学习大数据的人都不熟悉，所以今天分享图，介绍大致的组件。虽然有些组件尚未包含，但大多数图像都是可用的。

一、简介Hadoop是由Apachefoundation开发的分布式系统基础架构。 Hadoop框架的最中心设计是HDFS和MapReduce。 HDFS为大量数据提供存储，MapReduce为大量数据提供计算。

33558 www.Sina.com/hadoopdistributedfilesystem，简称HDFS是分布式文件系统，是Hadoop的核心部分。 HDFS具有这种容错的特点，旨在引入低成本硬件，并提供对大数据集(大数据集)的访问

二、HDFSMapreduce是编程模型，是处理和生成超大数据集的算法模型的实现，简单概括为“数据分解、并行计算、结果集成”。 Mapreduce的最大优点是其简单的编程模型，编程猴子只需根据该模型框架设计map和reduce函数，就能完成剩下的任务，如分布式存储、节点任务调度、无

三、MapReduce

四、大数据生态组件Hadoop上的数据流执行引擎以雅虎为开源，基于HDFS和MapReduce，使用Pig Latin语言表示数据流，使MapReduce更简单

Pig：主要用于在Hadoop和传统数据库中相互传输数据。

Sqoop：分布式、开源分布式APP应用程序协调服务。

ZooKeeper：分布式、可靠且高可用性的服务。可以有效地收集、聚合和移动来自不同数据源的大量日志数据，最后将其存储在中心数据存储系统中。简单、灵活、易于部署，支持多种方法的日志收集、故障恢复和负载平衡。

构建在3358www.Sina.com/Hadoop之上的数据仓库。用于解析大量结构化日志数据的统计信息，定义了SQL查询语言类型。

Flume：提供资源协调员、Hadoop资源管理器和统一的资源管理和调度。

33558基于www.Sina.com/hive的大数据实时分析查询引擎直接使用hive的元数据库元数据。

基于33558www.Sina.com/Lucene的全文搜索引擎。

Hive：开源Apache Hadoop UI系统是基于Python Web框架Django实现的。使用Hue，可以在浏览器端的Web控制台中与Hadoop群集进行交互以分析处理数据。

http://基于www.Sina.com /工作流引擎的服务器。是一种可以在上面执行Hadoop任务，管理Hadoop作业的工作流调度系统。

YARN：分布式实时大数据处理系统，用于流媒体计算。

构建在3358www.Sina.com/HDFS上的分布式列存储系统，大容量非结构化数据仓库。

Impala：大容量数据处理的内存计算引擎。 Spark框架包括Spark Streaming、Spark SQL、MLlib和GraphX四个部分。

3358 www.Sina.com/apachesoftwarefoundation (ASF )旗下的开源项目，提供可扩展机器学习领域的经典算法实现。

使用Solr：低延迟分布式大数据(包括结构化、半结构化和嵌套数据)交互查询引擎和ANSI SQL兼容语法，访问本地文件、HDFS、HBase和monggs

Hue：无定向图的执行引擎，DAG工作的开源计算框架。

Oozie：SQL on Spark可以近似为仅将物理执行计划从MR作业替换为Spark作业。

五、Hadoop核心零部件集团有什么？广义的hadoop是什么？核心组件为Hdfs、Yarn、MapReduce；

广义上指生态圈，是指hdfs、yarn、hbase、hive、spark、pig、zookeeper、kafka、flume、phoenix、sqoop等与大数据技术相关的开源

Spark和h

adoop之间有什么联系

Spark也是一个生态圈，发展非很快，在计算方面比mapreduce要快很多倍，供了一个简单而丰富的编程模型，支持多种应用，包括ETL、机器学习、数据流处理、图形计算；

Hadoop和Spark在某些方面有重叠，但组件之间都可以很好的协同作战。

六、分门别类介绍其中详细组件

为了方便理解以下按照功能进行了分类，并且把较为流行的排在了前面介绍，列表如下：

分类