学习笔记Hadoop（三）—— Hadoop介绍（3）—

三、Hadoop生态环境3.1、Apache HBase HBase是一个分布式的、面向列的开源数据库该技术来源于Chang et al撰写的谷歌论文《Bigtable》。结构化数据的分布式存储系统“高可靠性、高性能、面向列、可扩展的HDFS为HBase提供高可靠性的基础存储，MapReduce为HBase提供高性能的计算能力，Zookeeper为HBase提供稳定的服务和HDFS

需要较高的写入吞吐量

大型数据集的高性能随机访问(

需要优雅的数据扩展

结构化和半结构化数据

不需要所有关系数据库属性，如交叉列、交叉表、事务和连接

3.2、Apache Hive Hive是基于Hadoop的一个数据仓库工具将结构化数据文件映射到数据库表，可以提供简单的sql查询功能。可以将sql语句转换为MapReduce任务并执行的优点是学习成本低，并且可以在类sql语句中快速实现简单的MapReduce统计信息。不需要开发特殊的MapReduce APP应用程序，数据仓库的理想统计分析Hive定义了一种称为HQL的简单类SQL查询语言。这样，熟悉SQL的用户就可以查询数据。 Hive无法在大型数据集上提供低延迟、快速的查询。 Hive不适用于需要低延迟的APP应用。 3358 www.Sina.com/hive http://www.Sina.com /所有数据在加载时确定的hive的最佳使用情况是大型数据集的批处理工作，如网络日志分析3.3、Apache sq oom

通过在数据库(mysql、postgresql…)之间传递数据，可以将一种关系类型

例如，数据是从数据库(如MySQL、Oracle或Postgres )导入的

Hadoop的HDFS还允许您将HDFS数据导出到关系数据库。在Hadoop MapReduce中将数据从关系数据库导入到HDFS中与其他ETL工具一样，可以使用元数据模型来确定数据类型，并在将数据从数据源传输到Hadoop时确保类型安全拆分数据集以创建Hadoop任务，并管理在每个块3.4、Apache oo zie http://www.Sina.com/Hadoop平台(HDFS、Pig、MapReduce等)上运行的Jobs 它围绕两个核心进行：工作流和协调员，用于定义任务的拓扑结构和执行逻辑，负责工作流的依赖和触发。Hive 并不提供实时的查询和基于行级的数据更新操作，即工作流，是描述需要执行的操作序列的定向图(DAG，Directed Acyclic Graph )。 3.5、其他不支持对数据的改写和添加:分布式、可靠、可用的服务，用于有效收集、聚合和移动大量日志数据。

Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统:用于维护配置信息、命名、提供分布式同步和提供分组服务的集中式服务。

33558 www.Sina.com/:一组基于Hadoop的机器学习和数据挖掘分布式计算框架算法，实现了多种MapReduce模式的数据挖掘算法。

Workflow:由加州大学伯克利分校AMPLab开发的开源数据分析集群计算框架，建立在HDFS之上。 Spark和Hadoop一样，用于构建大规模、低延迟的数据分析APP应用程序。 Spark以Scala语言实现，将Scala用作APP应用程序框架。

Flume:一种分布式、容错的实时计算系统，由BackType开发，由Twitter捕获。 Storm是一个流处理平台，经常用于实时计算和数据库更新。 Storm也可用于“连续计算”(continuous computation )，对数据流执行连续查询，并在计算时将结果作为流输出到用户。此外，也可用于“分布式RPC”，执行并行且昂贵的运算。

学习笔记Hadoop（三）—— Hadoop介绍（3）—— Hadoop生态环境