首页 > 编程知识 正文

hadoop生态架构,hadoop生态圈介绍

时间:2023-05-03 09:42:14 阅读:57001 作者:848

与Hadoop生态系统相关的视频内容是否可以在b站上看到https://m.bilibili.com/video/b v1bz4y1f7w 5? p=1share _ medium=androidshare _ plat=androidshare _ source=copy share _ tag=s _ I timestamp=1619318095 _ niquuuquure

根据hadoop个人资料,hadoop必须提到hadoop的父亲,Apache Lucene项目的创始人——Doug Cutting。

Hadoop是Apache的开源分布式计算平台,在计算机集群上运行,提供可靠、可扩展的分布式计算功能。 Hadoop的核心是分布式文件系统(HDFS )和并行编程框架MapReduce。

Hadoop与三篇论文密切相关:

2003年,谷歌发表的分布式文件系统GFS论文可以用于解决大量数据存储问题。

2004年,谷歌发表了MapReduce论文,可以解决庞大的数据计算问题。

2006年,谷歌发表了BigTable的论文,该论文是基于GFS的数据存储分布式存储系统。

GFS、MapReduce、BigTable是我们常说的“三台马车”。

Hadoop的HDFS是GFS的开源实现; MapReduce是谷歌地图的开源实现,而Hbase是谷歌bigtable的开源实现。

Hadoop的特点跨平台性: Hadoop是基于java语言开发的,具有在Linux平台上运行的良好的跨平台性

可靠性: hadoop的HDFS是一个分布式文件系统,可以将大量数据分布在不同的机器节点上进行冗馀存储,即使一个机器副本发生故障,其他机器副本也能正常工作。

容错) HDFS可以将文件分散存储在许多不同的机器节点上,并自动存储多个副本,从而在一个节点上的任务失败后也可以自动重新分配。

高效) hadoop核心组件HDFS和MapReduce,一个负责分布式存储,一个负责分布式处理,能够处理Pb级数据。

低成本高扩展: hadoop在廉价的计算机集群上运行,成本相对较低,并且可以扩展到数千个计算机节点,完成大量数据的存储和计算。

Hadoop1.0和2.0的区别Hadoop1.0的组成包括hdfs、MapReduce和其他组件。

Hdfs负责数据存储,MapReduce负责数据计算和资源调度。 进行数据处理时,进行CPU、存储器、磁盘数量等资源分配

Hadoop2.0的组成包括hdfs、MapReduce、yarn和其他组件。

Hdfs负责数据存储,MapReduce负责数据计算,yarn负责资源调度

配置Hadoop生态系统除了HDFS和MapReduce两个核心组件外,还包括yarn、hbase、hive、pig、mahout、zookeeper、sqoop、flume和apapap

HDFS ) Hadoop分布式文件系统在大型廉价的计算机集群上运行,可以流式读取和处理大量文件。 HDFS应该掌握的概念是NameNode、DataNode、Secondary Namenode,后面有特殊的章节。

Yarn (资源调度和管理框架。 包括资源管理器、APP应用程序管理器和节点管理器。 资源管理由ResourceManager负责,任务调度和监视由ApplicationMaster负责,任务执行由NodeManager负责。

MapReduce :分布式并行编程框架。 核心思想是“分治”。 MapReduce=Map Reduce。 Map函数负责分片化工作,reduce函数负责统一归属。

h base :谷歌bigtable的开源实现。 与传统关系数据库的不同之处在于基于列的存储。 传统的数据库是基于行的存储,而HBase是基于列的存储,具有高效、可靠地处理非结构化数据的功能。

Hive )基于hadoop的数据仓库工具,可轻松处理数据集。 我们有类似SQL语言的查询语言hive-sql。

pig :提供pig latin的数据流语言,如SQL,可用于查询半结构化数据集。

mahout:Apache的开源项目,提供一些分类、聚类、过滤等机器学习领域的经典算法。

Zookeeper )是一个高效可靠的分布式协作系统

Sqoop:sql-to-hadoop的缩写,意思是关系数据库和hadoop之间进行数据交换。

Flume )海量的日志收集、聚合、传输系统。 可以轻松处理数据。

apacheambari是一个帮助安装、部署、配置和管理Apache Hadoop群集的工具。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。