首页 > 编程知识 正文

hadoop最新版本是多少,第二代hadoop版本

时间:2023-05-04 01:59:40 阅读:56638 作者:717

Hadoop是一个软件框架,可以分布式处理大量数据,使您能够以可靠、高效和可伸缩的方式处理数据。 它的发行版除了Apache hadoop以外,还包括cloudera、hortonworks、mapR、华为和DKhadoop等提供了自己的业务版本。 商业发行版主要提供更专业的技术支持。 这对大公司更重要,不同的版本有自己的特点。

其实主要是Apache版本和很多第三方发行版本。

Apache的优缺点企业实际上很少使用。 最原始的版本。 这是学习hadoop的基础。 适用于虚拟机中的联系hadoop练习

优点:

完全开源的免费社区活动文档,详细资料缺点:

复杂的版本控制。 版本管理混乱,各种版本层出不穷,困扰着使用者。 复杂群集的部署、安装和配置。 通常,创建大量配置文件并将其分发到每个节点以满足群集的需要,因此容易出错,效率低下。 复杂的集群运输。 集群的监视、运输需要安装ganglia、nagois等第三方其他软件,运输难度较大。 复杂的生态环境。 在Hadoop生态圈中,选择和使用Hive、Mahout、Sqoop、Flume、Spark、Oozie等组件包括兼容性问题、版本兼容性、组件冲突与否以及编译是否通过在许多情况下,编译组件以解决版本冲突需要很多时间。

第三方版本(如CDH、HDP和MapR )的优缺点优点:

基于Apache协议的100%开源。 版本控制清晰。 例如Cloudera、CDH1、CDH2、CDH3、CDH4、CDH5等,如果后来添加CDH4.1.0 patch level 923.142等修补程序版本,则原生态Apache Hadoop 0.20.2 在第三方版本中,经常有很多案例分析,并在不同的生产环境中大量运行。 版本更新得很快。 例如,CDH通常每季度都有更新,每年都有release。 基于稳定版本的Apache Hadoop,应用最新错误修复或功能的patch大大提高了群集部署的效率,并提供了部署、安装和配置工具,以便在几个小时内部署群集。 运输维度简单。 提供管理、监控、诊断、配置修改工具,管理配置方便,定位问题快速、准确,运维工作简单、有效。缺点:

与制造商锁定有关的问题。 cloudera (可通过技术解决)开发了hadoop升级、打包和许多框架。 客房、hue、impala都是这家公司开发的

成立于2008年的Cloudera是第一家将Hadoop商用化的公司,为合作伙伴提供主要包括支持、咨询服务和培训在内的Hadoop商用解决方案。

2009年Hadoop的创始人Doug Cutting也加入了Cloudera公司。 Cloudera产品主要是CDH、Cloudera Manager、Cloudera支持

CDH是Cloudera的Hadoop发行版,它是完全开源的,比Apache Hadoop具有更强的兼容性、安全性和稳定性。

云era manager是一个群集软件分发和管理监视平台,可以在几个小时内部署一个Hadoop群集,并实时监视群集的节点和服务。 云era支持是Hadoop的技术支持。

Cloudera的标价为每个节点每年4000美元。 Cloudera开发并贡献了一个可以实时处理大数据的Impala项目。

霍尔顿工作是2011年成立的霍尔顿工作是与雅虎和硅谷的初创企业Benchmark Capital合资成立的

公司成立之初就吸纳了约25至30名Hadoop专业的雅虎工程师,这些工程师于2005年开始协助雅虎开发Hadoop,为Hadoop的80%代码做出了贡献。

雅虎工程副总裁、雅虎硬件开发团队负责人Eric Baldeschwieler就任

霍尔顿工作队首席执行官。

Hortonworks的主要产品是HortonWorksdataplatform(HDP ),同样是100%开源的产品。 HDP除了一般项目外,还包括Ambari、开源安装和管理系统

元数据管理系统HCatalog目前已集成到Facebook开源Hive中。 霍尔顿工作的Stinger创造性地极大地优化了Hive项目。 霍尔顿工作为入门提供了一个非常好的易用沙盒。

Hortonworks开发了许多增强功能,并将其提交到核心骨干网。 这使Apache Hadoop能够在Microsoft Windows平台(如Windows Server或Windows Azure )上本地运行。 价格基于集群,每10个节点每年12500美元。

DKhadoop有效集成和深度优化了整个HADOOP生态系统的所有组件,重新编译为完整、更高性能的大数据通用计算平台,实现了各部件的有机协调。 因此,与开源大数据平台相比,DKH在计算性能方面提高了多达5倍。 DKhadoop将复杂的大数据集群配置简化为三个节点(主节点、管理节点、计算节点),大大简化了集群的管理运维,提高了集群的高可用性、高维护性和高稳定性。

综上所述,考虑到大数据平台的高效部署和安装、集中式配置管理、使用中的稳定性、兼容性、可扩展性,以及未来相对简单高效的运维,解决问题的成本较低。

建议发行第三方版本。

其中第三个版本,国内使用较多的是Cloudera的CDH。 大家也可以详细比较优缺点,根据自己的需求进行选择。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。