首页 > 编程知识 正文

学习笔记Hadoop(三)—— Hadoop介绍(3)—— Hadoop生态环境

时间:2023-05-05 20:03:01 阅读:57018 作者:1251

三、Hadoop生态环境3.1、Apache HBase HBase是一个分布式的、面向列的开源数据库该技术来源于Chang et al撰写的谷歌论文《Bigtable》。 结构化数据的分布式存储系统“高可靠性、高性能、面向列、可扩展的HDFS为HBase提供高可靠性的基础存储,MapReduce为HBase提供高性能的计算能力,Zookeeper为HBase提供稳定的服务和HDFS

需要较高的写入吞吐量

大型数据集的高性能随机访问(

需要优雅的数据扩展

结构化和半结构化数据

不需要所有关系数据库属性,如交叉列、交叉表、事务和连接

3.2、Apache Hive Hive是基于Hadoop的一个数据仓库工具将结构化数据文件映射到数据库表,可以提供简单的sql查询功能。 可以将sql语句转换为MapReduce任务并执行的优点是学习成本低,并且可以在类sql语句中快速实现简单的MapReduce统计信息。 不需要开发特殊的MapReduce APP应用程序,数据仓库的理想统计分析Hive定义了一种称为HQL的简单类SQL查询语言。 这样,熟悉SQL的用户就可以查询数据。 Hive无法在大型数据集上提供低延迟、快速的查询。 Hive不适用于需要低延迟的APP应用。 3358 www.Sina.com/hive http://www.Sina.com /所有数据在加载时确定的hive的最佳使用情况是大型数据集的批处理工作,如网络日志分析3.3、Apache sq oom

通过在数据库(mysql、postgresql…)之间传递数据,可以将一种关系类型

例如,数据是从数据库(如MySQL、Oracle或Postgres )导入的

Hadoop的HDFS还允许您将HDFS数据导出到关系数据库。 在Hadoop MapReduce中将数据从关系数据库导入到HDFS中与其他ETL工具一样,可以使用元数据模型来确定数据类型,并在将数据从数据源传输到Hadoop时确保类型安全拆分数据集以创建Hadoop任务,并管理在每个块3.4、Apache oo zie http://www.Sina.com/Hadoop平台(HDFS、Pig、MapReduce等)上运行的Jobs 它围绕两个核心进行:工作流和协调员,用于定义任务的拓扑结构和执行逻辑,负责工作流的依赖和触发。Hive 并不提供实时的查询和基于行级的数据更新操作,即工作流,是描述需要执行的操作序列的定向图(DAG,Directed Acyclic Graph )。 3.5、其他不支持对数据的改写和添加:分布式、可靠、可用的服务,用于有效收集、聚合和移动大量日志数据。

Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统:用于维护配置信息、命名、提供分布式同步和提供分组服务的集中式服务。

33558 www.Sina.com/:一组基于Hadoop的机器学习和数据挖掘分布式计算框架算法,实现了多种MapReduce模式的数据挖掘算法。

Workflow:由加州大学伯克利分校AMPLab开发的开源数据分析集群计算框架,建立在HDFS之上。 Spark和Hadoop一样,用于构建大规模、低延迟的数据分析APP应用程序。 Spark以Scala语言实现,将Scala用作APP应用程序框架。

Flume:一种分布式、容错的实时计算系统,由BackType开发,由Twitter捕获。 Storm是一个流处理平台,经常用于实时计算和数据库更新。 Storm也可用于“连续计算”(continuous computation ),对数据流执行连续查询,并在计算时将结果作为流输出到用户。 此外,也可用于“分布式RPC”,执行并行且昂贵的运算。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。