首页 > 编程知识 正文

大数据 Hadoop的生态系统和组件

时间:2023-05-05 18:00:59 阅读:86792 作者:1186

Hadoop生态系统的组件主要有MapReduce|HDFS|h base|hive|pig|zookeeper|mahout

MapReduce

主要来自谷歌资源,是简化大数据处理,并行、分布式处理的编程模型。

hadoop2.0是基于YARN框架构建的。 YARN的全名是yet-another -资源- negotiator。 Yarn可以应用于S3|Spark等。

HDFS

它来自谷歌文件系统,全名是Hadoop分布式文件系统,是Hadoop的分布式文件系统,由许多机器构成,可以存储大数据文件。

它由NameNode和DataNode组成,可以配置为高可用性(HA )以避免单点故障。 一般用Zookeeper处理。 两个NameNode正在同步。

海威

在Hadoop数据仓库(DW )中,可以使用语言如SQL的HSQL处理数据,非常方便。 主要是OLAP )在线分析处理(on-lineanalyticalprocessing ),用于数据的合并|查询|分析。

h基本型

来自谷歌bigtable。 是Hadoop的数据库。 HBase的基础是利用仍在使用的Hadoop的HDFS作为文件存储系统,可以利用Hadoop的MR处理HBase的数据,通常使用Zookeeper进行共同服务。

Zookeeper

是面向大规模分散系统的可靠的调整系统,在Hadoop|HBase|Strom等中使用。 其目的是封装复杂、易出错的关键服务,为用户提供简单|可靠|高效|稳定的系统。 提供配置维护|分布式同步|命名服务等功能,Zookeeper主要在lead选举中维持HA和同步操作等

Pig

提供在Hadoop中并行执行数据流的引擎。 包含常见的数据操作,如join|sort|filter,并使用MR处理数据。

马霍特

那是机器学习库。 提供可扩展的机器学习领域经典算法的实现,以帮助开发者更轻松、更快速地创建智能APP应用。 Mahout包括许多实现,如聚类、分类和推荐算法。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。