首页 > 编程知识 正文

hadoop各发行版使用率(hadoop发行版本)

时间:2023-05-05 05:45:49 阅读:97910 作者:2790

大数据和Hadoop正在一步步给企业的数据管理架构带来变革。这是一场以加盟商、企业软件提供商、云服务提供商为主角的淘金热。每个参与者都希望在这片处女地建立自己的新帝国。虽然开源的ApacheHadoop项目本身已经包含了HadoopCommon、Hadoop分布式文件系统(简称HDFS)、HadoopYARN、HadoopMapReduce——等各种核心模块——,但由于缺乏商业供应商的技术支持和打包解决方案,无法直接作为市场上客户的可选产品。目前所有的顶级商业发行版都兼容Apache Hadoop,那么它们是如何保持相互独立的呢?遵循Forrester的观点,我们将讨论九个商业Hadoop发行版如何走出自己独特的道路。

亚马逊服务弹性MapReduce赢得了最大的市场份额。

Forrester首席分析师Mike Gualtieri表示,当你谈到Hadoop时,你可能不会想到亚马逊可能是第一家解决方案提供商,但AWS的Elastic MapReduce(简称EMR)确实是首批投放市场的商业Hadoop产品之一,它在全球市场份额方面也处于领先地位。EMR是一套在云环境下运行的Hadoop,它使用亚马逊EC2作为计算资源,亚马逊S3作为存储资源,还容纳了许多其他服务与之合作。

“AWS的解决方案路线图包括将Amazon EMR与Amazon Kinesis集成,实现流程处理;进一步加强其与亚马逊红移数据仓库等数据源的整合;在策略指导下自动调整集群规模;支持基于Hadoop的附加NoSQL数据库;与来自第三方供应商的更多商业智能解决方案对接,”Gualtieri写道。

Cloudera专注于基于企业客户需求的Hadoop创新。

就市场份额而言,AWS可能遥遥领先,但特许经营公司Cloudera也紧随其后;目前公司客户超过200家,部分客户部署了1000多个节点,数据总量达到PB级。

Gualtieri写道:“企业客户希望拥有一套Hadoop管理和监控工具,Cloudera为此创建了Cloudera Manager。“企业客户希望获得更快的Hadoop SQL引擎。为此,Cloudera利用大规模并行处理(MPP)架构创建了Impala——企业数据仓库,该架构也使用了MPP。Cloudera的创新思路是,一方面继续坚持Hadoop项目的核心,同时通过快速创新,积极满足客户需求,将自身解决方案与其他供应商区分开来。”Cloudera的盈利模式主要来自软件订阅,但他们也提供技术支持服务。

Hortonworks推动开源Hadoop创新

纵观各大参与厂商,专注于Hadoop业务的Hortonworks凭借自身的Hortonworks数据平台(简称HDP),是最适合Apache Hadoop开源的,但也在积极寻求与其他工程技术合作伙伴的深度合作,包括微软、Teradata、SAP、红帽等。

Gualtieri写道:“Hortonworks的战略是通过开源社区促进创新活动,并与合作伙伴构建生态系统,以加速Hadoop在企业客户中的普及。“如果开源社区的发展速度在某些方面不尽如人意,Hortonworks会以此为基础建设新项目,并利用自身资源帮助其获得强大的动力。”

在这方面,旨在提供Hadoop集群管理控制台的Apache Ambari项目就是一个典型的例子。

IBM InfoSphere BigInsights,一个由蓝色巨人支持的企业扩展项目

IBM并不像它的一些竞争对手那样拥有Hadoop社区引以为傲的合作深度,但他们在分布式计算和数据管理方面的杰出成就帮助它提出了一个相当全面的Hadoop解决方案。目前,IBM已经完成了100多个Hadoop部署,其中一些已经管理了PB级别的数据。

Gualtieri写道:“此外,IBM还拥有许多先进的分析工具、全球市场份额和服务实施方案,这使其能够通过一整套全面的大数据解决方案吸引众多企业客户。“IBM的路线图包括不断将BigInsights Hadoop解决方案与相关IBM资产进行整合,如SPSS高级分析、高性能计算工作负载管理、商业智能工具、数据管理和建模工具等。”

MapR技术支持NFS和其他创新。

">

MapR Technologies在本次榜单的专营企业中位列第三,市场份额排名居于Cloudera与Hortonworks之后。早在刚刚起步的阶段,MapR就没有像其它厂商那样保守地对Hadoop进行概念验证、而是在此期间专注于实现各项企业级功能。

“MapR Technologies为其Hadoop发行版带来众多独一无二的创新成果,其中包括支持网络文件系统(简称NFS)、在集群中运行二进制代码、针对HBase实现性能强化以及高可用性与灾难恢复功能等等,”Gualitieri写道。Gualtieri同时指出,目前MapR的竞争对手已经开始积极创建与之相似的企业级功能,因此MapR必须要在市场推广方面有所动作并建立起属于自己的合作关系与发布渠道。

Pivotal Software充分发挥其Greenplum引擎潜能

作为站在EMC与VMware巨人肩膀上的新兴企业,Pivotal由前任VMware公司CEO Paul bmdxbw负责掌舵,同时也拥有EMC强大的技术咨询与数据科学团队为其提供支持。除了源自EMC的列式数据库Greenplum Database技术,Pivotal的Hadoop发行版还凭借名为HAWQ的MPP Hadoop SQL引擎实现了类似于MPP的SQL性能表现。

“Pivotal是第一家提供全功能企业级Hadoop设备的企业数据仓库供应商;他们也是第一家将自身Hadoop、企业数据仓库与数据管理层整合在同一台机架当中并作为设备家族推出的厂商,”Gualtieri写道。“Pivotal的路线图将使其Hadoop解决方案在竞争优势方面一马当先;其创新重点集中在改进HAWQ SQL引擎并将其与其它Pivotal产品进一步结合方面。”

Teradata利用丰富的专业知识打造Hadoop设备

Teradata是一家非常专业的企业数据仓库设备供应商,该公司在此基础上与Hortonworks建立起坚实的技术合作关系、将Hadoop以设备形式投放市场。

“Teradata的Hadoop发行版当中包括了与Teradata管理工具与SQL-H的集成机制、利用联合SQL引擎帮助客户从其数据仓库与Hadoop当中查询数据,”Gualtieri写道。“方案还利用Aster对Hadoop进行分析。”

Teradata的Hadoop设备目前只拥有不到一百家客户,不过Gualtieri指出其雄厚的资金实力加之丰富的技术与管理资源足以创建出一套独特的高性能设备,在这方面其它供应商很难与之进行正面对抗。

英特尔为Hadoop带来以硬件为基础的性能与安全性增强方案

在Hadoop发行版领域,英特尔的参与时间相对较晚,但这并不妨碍其利用其至强芯片的强大性能成为此间的一位有力竞争者。

“英特尔是第一家以硬件为基础向Hadoop交付性能与安全性强化机制的供应商,”Gualtieri写道。“英特尔未来几年的路线图将进一步与Hadoop解决方案市场上的其它参与者建立紧密的合作关系。除此之外,英特尔还将继续专注于利用硬件强化性能与安全性表现、本地任务优化、Lustre与图形分析,这一切都将推动其发行版在赢得广泛关注与赞赏。”

微软Windows Azure HDInsight,在云与Windows之力下茁壮成长

作为Hortonworks工程技术合作项目中的组成部分,微软Windows Azure HDInsight Service的设计思路紧紧围绕着Windows Azure云而展开。HDInsight and Hadoop for Windows(属于Hortonworks数据平台的一个分支版本)也是目前惟一一套运行在Windows环境下的Hadoop发行版。

“微软还提供Polybase以帮助SQL Server客户对保存在Hadoop当中的数据进行查询,”Gualtieri写道。“微软也在其它开源社区Hadoop项目当中作出了积极贡献,其中就包括下一代Hive。微软通过一系列Hadoop堆栈拓展举措为其客户在数据库、数据仓库、云、OLAP、商务智能、电子表格(PowerPivot)、zddbmh以及开发工具方面带来显著的改进效果。”

本站文章除注明转载外,均为本站原创或翻译

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。