文章1,概述1 ) Hadoop版本1、Apache Hadoop版本2、DKhadoop版本3、Cloudera版本4、Hortonworks版本5、华为Hadoop版本2 ) Hadoop1. x
一.概述
Hadoop是Apache软件基金会的下一个开放源代码分布式计算平台,以硬件分布式文件系统(HDFS )、映射(MapReduce ) Hadoop2.0加入了YARN YARN是一个资源调度框架,它允许精细的粒度管理和调度任务,还支持其他计算框架。 凭借hdfs的高容错性、高可扩展性、效率性等优点,用户可以将Hadoop引入廉价的硬件中,形成分布式系统。 当前最新版本为3.x,官方文档
1 ) Hadoop版本1,Apache Hadoop发布官方地址: https://hadoop.apache.org
Apache版本的最原始(最基础)版本非常适合入门学习。
2、DKhadoop发布Github地址: https://github.com/dk Hadoop/dk-fitting
高效集成和深度优化整个HADOOP生态系统的所有组件,重新编译为完整、更高性能的大数据通用计算平台,实现了各部件的有机协调。 因此,与开源大数据平台相比,DKH在计算性能方面提高了多达5倍。 DKhadoop将复杂的大数据集群配置简化为三个节点(主节点、管理节点、计算节点),大大简化了集群的管理运维,提高了集群的高可用性、高维护性和高稳定性。
3、Cloudera发布官方地址: https://www.cloud era.com/products/open-source/Apache-Hadoop.html
CDH是Cloudera的hadoop发行版,它是完全开源的,比Apache hadoop提供了更好的兼容性、安全性和稳定性。
4、Hortonworks发布官方地址: https://www.cloud era.com/products/HDP.html
Hortonworks的主要产品是Hortonworksdataplatform(HDP ),同样是100%开源产品,其特点: HDP是稳定版本的Apache Hadoop的所有主要组件安装很简单。 HDP包括现代化的直观用户界面安装和配置工具。
5、华为Hadoop http://www.Sina.com /,是一个集大型并行处理数据库、大数据云服务于一体的数据处理和服务平台,提供端到端全生命周期的解决方案能力包括批处理、内存计算、流计算和MPPDB在内的全面数据处理能力,还提供数据分析挖掘平台、数据服务平台,使用户从数据到知识、从知识到知识
2 ) Hadoop1. x -”Hadoop2. x的演变
3 ) Hadoop2.x与Hadoop3.x的区别华为FusionInsight大数据平台是集Hadoop生态发行版
Hadoop 2.x - Apache 2.0、开源Hadoop 3.x - Apache 2.0、开源License
最低支持版本Hadoop 2.x - java最低支持版本java 7Hadoop 3.x - java最低支持版本java 8 支持的最低Java版本
Hadoop 2.x -允许在复制(浪费的空间)中处理容错。 可以通过hadoop3.x-erasure编码处理容错。容错
Hadoop 2.x -对于数据,平衡使用HDFS平衡器。 对于Hadoop 3.x -数据,平衡使用Intra-data节点平衡器。 此平衡器通过HDFS磁盘平衡器CLI调用。数据平衡
使用Hadoop 2.x -复制方案。 支持Hadoop3.x-HDFS的清除代码。存储Scheme
Hadoop 2.x - HDFS在存储空间中有200%的开销。 Hadoop 3.x -存储开销仅为50%。 存储开销示例
Hadoop 2.x -如果有两个块,则18个块占用空间,因为“复制方案”(Scheme )。
Hadoop 3.x -如果有两个块,则九个块占用六个空间,三个用于奇偶校验。
存储开销
Hadoop 2.x -使用存在可伸缩性问题的旧时间轴服务。 Hadoop 3.x -改进的时间线
服务v2并提高时间线服务的可扩展性和可靠性。默认端口范围
Hadoop 2.x - 在Hadoop 2.0中,一些默认端口是Linux临时端口范围。所以在启动时,他们将无法绑定。Hadoop 3.x - 但是在Hadoop 3.0中,这些端口已经移出了短暂的范围。工具
Hadoop 2.x - 使用Hive,pig,Tez,Hama,Giraph和其他Hadoop工具。Hadoop 3.x - 可以使用Hive,pig,Tez,Hama,Giraph和其他Hadoop工具。兼容的文件系统
Hadoop 2.x - HDFS(默认FS),FTP文件系统:它将所有数据存储在可远程访问的FTP服务器上。 Amazon S3(简单存储服务)文件系统Windows Azure存储Blob(WASB)文件系统。Hadoop 3.x - 它支持所有前面以及Microsoft Azure Data Lake文件系统。Datanode资源
Hadoop 2.x - Datanode资源不专用于MapReduce,我们可以将它用于其他应用程序。Hadoop 3.x - 此处数据节点资源也可用于其他应用程序。MR API兼容性
Hadoop 2.x - 与Hadoop 1.x程序兼容的MR API,可在Hadoop 2.X上执行。Hadoop 3.x - 此处,MR API与运行Hadoop 1.x程序兼容,以便在Hadoop 3.X上执行。支持Microsoft Windows
Hadoop 2.x - 它可以部署在Windows上。Hadoop 3.x - 它也支持Microsoft Windows。插槽/容器
Hadoop 2.x - Hadoop 1适用于插槽的概念,但Hadoop 2.X适用于容器的概念。通过容器,我们可以运行通用任务。Hadoop 3.x - 它也适用于容器的概念。单点故障
Hadoop 2.x - 具有SPOF的功能,因此只要Namenode失败,它就会自动恢复。Hadoop 3.x - 具有SPOF的功能,因此只要Namenode失败,它就会自动恢复,无需人工干预就可以克服它。HDFS联盟
Hadoop 2.x - 在Hadoop 1.0中,只有一个NameNode来管理所有Namespace,但在Hadoop 2.0中,多个NameNode用于多个Namespace。Hadoop 3.x - Hadoop 3.x还有多个名称空间用于多个名称空间。可扩展性
Hadoop 2.x - 我们可以扩展到每个群集10,000个节点。Hadoop 3.x - 更好的可扩展性。 我们可以为每个群集扩展超过10,000个节点。访问数据
Hadoop 2.x - 由于数据节点缓存,我们可以快速访问数据。Hadoop 3.x - 这里也通过Datanode缓存我们可以快速访问数据。HDFS快照
Hadoop 2.x - Hadoop 2增加了对快照的支持。 它为用户错误提供灾难恢复和保护。Hadoop 3.x - Hadoop 2也支持快照功能。平台
Hadoop 2.x - 可以作为各种数据分析的平台,可以运行事件处理,流媒体和实时操作。Hadoop 3.x - 这里也可以在YARN的顶部运行事件处理,流媒体和实时操作。群集资源管理
Hadoop 2.x - 对于群集资源管理,它使用YARN。 它提高了可扩展性,高可用性,多租户。Hadoop 3.x - 对于集群,资源管理使用具有所有功能的YARN。 二、Hadoop的发展简史Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自始于2002年的Apache Nutch项目——一个开源的网络搜索引擎并且也是Lucene项目的一部分。
在2004年,Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS(Nutch Distributed File System),也就是HDFS的前身。
2004年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了MapReduce分布式编程思想。
2005年,Nutch开源实现了谷歌的MapReduce。
到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop,同时,Doug Cutting加盟雅虎。
2008年1月,Hadoop正式成为Apache顶级项目,Hadoop也逐渐开始被雅虎之外的其他公司使用。
2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,它采用一个由910个节点构成的集群进行运算,排序时间只用了209秒。
在2009年5月,Hadoop更是把1TB数据排序时间缩短到62秒。Hadoop从此名声大震,迅速发展成为大数据时代最具影响力的开源分布式开发平台,并成为事实上的大数据处理标准。
三、Hadoop生态系统
复杂的批量处理(Batch Data Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时;
基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间
基于实时数据流的数据处理(Streaming Data Processing),通常在数百毫秒到数秒之间
Storm——Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。如今已被Flink替代。Flink——Apache Flink是一个面向数据流处理和批量数据处理的可分布式的开源计算框架,它基于同一个Flink流式执行模型(streaming execution model),能够支持流处理和批处理两种应用类型。由于流处理和批处理所提供的SLA(服务等级协议)是完全不相同, 流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理,所以在实现的时候通常是分别给出两套实现方法,或者通过一个独立的开源框架来实现其中每一种处理方案。Flume——一个可用的、可靠的、分布式的海量日志采集、聚合和传输系统。Hive——是为提供简单的数据操作而设计的分布式数据仓库,它提供了简单的类似SQL语法的HiveQL语言进行数据查询。Zookeeper——分布式协调系统,Google Chubby的Java开源实现,是高可用的和可靠的分布式协同(coordination)系统,提供分布式锁之类的基本服务,用于构建分布式应用。Hbase——基于Hadoop的分布式数据库,Google BigTable的开源实现 是一个有
序、稀疏、多维度的映射表,有良好的伸缩性和高可用性,用来将数据存储到各个计算节点上。Cloudbase——基于Hadoop的数据仓库,支持标准的SQL语法进行数据查询。Pig——大数据流处理系统,建立于Hadoop之上为并行计算环境提供了一套数据工
作流语言和执行框架。Mahout——基于HadoopMapReduce的大规模数据挖掘与机器学习算法库。Oozie——MapReduce工作流管理系统。Sqoop——数据转移系统,是一个用来将Hadoop和关系型数据库中的数据相互转
移的工具,可以将一个关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS
的数据导入关系型数据库中。Scribe——Facebook开源的日志收集聚合框架系统。
这里只是列举了一部分Hadoop生态里的组件,稍微介绍了一下,上面提到的目前企业里最常见的组件的原理介绍,安装部署,以及企业级使用会在后续分享出来,请耐心等待……