首页 > 编程知识 正文

hadoop配套版本(hadoop和spark)

时间:2023-05-03 21:56:34 阅读:104314 作者:58

记得刚接触hadoop的时候,和大多数人一样,会抱怨hadoop的安装和部署,这让新手很头疼,可能要花一整天的时间来安装和配置分布式环境。刚接触hadoop的时候,可以说对hadoop的理解一直停留在比较肤浅的层面。后来随着我不断的探索和与坏花前辈神的交流(主要是从大神那里进行教学),我对hadoop的理解和应用更加精通。

作为一个psddx,我想在这里和新人分享一些关于hadoop版本选择的问题。希望大家不要像我当时那么傻,知道hadoop有1.0.x和2.x两个版本。

Hadoop发行版

除了开元版的Apache,目前的hadoop发行版还包括华为发行版、英特尔发行版和Cloudera发行版。除了近年来兴起的DKhadoop商业发行版之外,上述第三方发行版已经存在了相对较长的时间。

国内大部分公司推出的Hadoop发行版都是收费的,而免费发行版主要是国外的,比如Apache发行版、Cloudera发行版。面对如此多的hadoop版本,很难选择。下面我们简单对比一下这些不同版本的优缺点,希望对初学者有所帮助。

Apache分布:

优势:Apache发行的优势主要表现在其完全开源免费、社区活动、详细的文档资料等方面。

缺点:Apache发行版有很多缺点,表现在以下几个方面:

1.复杂的版本管理。版本管理混乱,各种版本层出不穷,让用户无所适从。

2.复杂的集群部署、安装和配置。通常根据集群的需要,将大量的配置文件写入并分发到各个节点,容易出错,效率低下。

3.复杂的集群操作和维护。集群的监控和运行需要安装其他第三方软件,如ganglia、nagois等。这很难操作。

4.复杂的生态环境。在Hadoop生态系统中,组件的选择和使用,如Hive、Mahout、Sqoop、Flume、Spark、ozie等。需要很多关于兼容性的考虑,版本是否兼容,组件是否冲突,编译是否能通过等。编译组件来解决版本冲突往往会浪费大量时间。

第三方分发的优缺点:(如CDH、HDP、MapR等。)

优势:第三方分销的优势主要包括以下几点:

1.基于Apache协议的100%开源;

2.与原生hadoop相比,具有更好的兼容性、安全性和稳定性;

3.清晰的版本管理和更快的更新;

4.提供部署、安装、配置工具,大大提高了集群部署的效率,几个小时就能部署好集群;

5.操作维护简单。它提供了管理、监控、诊断和配置修改的工具,便于管理和配置,快速准确定位问题,操作和维护简单有效。

缺点:第三方hadoop发行版的主要缺点是涉及到厂商锁定的问题,但这个问题技术上是可以解决的。

DKhadoop分发:

Dkhadoop发行版是我目前正在接触和使用的版本。与市场上其他第三方发行版本相比,集成程度更高,但也保留了开源系统的所有优势。从目前的综合使用情况来看,与过去使用的一些第三方hadoop发行版相比,性能提升很多!关于DKhadoop分发的问题,有兴趣的可以自行查阅和收集一些资料。

dkhadoop

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。