首页 > 编程知识 正文

浅析大数据框架 Hadoop~

时间:2023-05-04 00:09:05 阅读:165598 作者:678

Hadoop的概念及其发展Hadoop最早源于Nutch。 Nutch的设计目标是构建包含网页捕获、索引、查询等功能的大型网页搜索引擎,但随着捕获的网页数量的增加,——实现了数十亿页的存储和索引

2003年、2004年谷歌发表的两篇论文为这个问题提供了可行的解决方案。

用于处理大型网页存储的分布式文件系统(GFS )。 分布式计算框架MAPREDUCE可以用于处理大量网页的索引计算问题。 Nutch的开发者将HDFS和MAPREDUCE实现合理的开源,从Nutch上剥离出来成为独立项目HADOOP,到2008年1月,HADOOP成为Apache的顶级项目,迎来了其快速发展期。

广义上,Hadoop指的是大数据的一个生态圈,包括许多其他软件。 狭义上,Hadoop单独指的是名为Hadoop的软件。

介绍Hadoop的历史0.x系列的版本。 是Hadoop中最早的开源版本,在国外使用较多。 因为当时国内的大数据还没有发展,所以在此基础上发展起来的1.x和2.x的版本

1.x版本系列:是存在时间最短的一代,包括修复hadoop版本中第二代开源版本,主要是0.x版本的错误。

2.x版系列:架构发生了巨大的变化,引入了yarn平台等诸多新功能,国内目前使用最多的版本,是因为当时国内正处于大数据爆发的阶段。

版本3.x系列:引入了一些关键功能和优化,包括HDFS删除修复、多个Namenode支持、MR Native Task优化以及基于cgroup的YARN内存和磁盘I/o分离,从而实现了最低的JDK bar 发行时间晚,现在不怎么使用,但将来会成为主流吧。

hadoop三大企业发型简介-免费开源版本apache官网: http://hadoop.apache.org/

优点:有全球开源贡献者,代码更新迭代版本快

缺点:可能很少考虑版本升级、版本维护、版本兼容性和版本补丁。 可以使用学习,但尽量不用实际的生产工作环境

所有apache软件的下载位置(包括各种历史版本) :

http://archive.apache.org/dist/

-免费开源hortonWorks官方网站: https://hortonworks.com/

hortonworks是雅虎主导Hadoop开发的副总裁,带领20多个核心成员对hortonworks、核心产品软件HDP(ambari )、HDF进行免费开源,并通过web界面web管理界面软件hdf网站(3358ambbarks

-软件付费版本ClouderaManager官方网站: https://www.cloudera.com/

cloudera主要是美国一家大数据公司开发的apache开源hadoop版本,通过自身内部的各种补丁,实现跨版本的稳定运行,大数据生态圈的各版本软件均提供相应的版本

Hadoop的模块构成了Hadoop HDFS。 是一个可靠性和吞吐量都很高的分布式文件系统。 Hadoop MapReduce :分布式离线并行计算框架。 Hadoop YARN :作业调度和集群资源管理框架。 Hadoop Common :支持其他模块的工具模块。 Hadoop体系结构模型NameNode和资源管理器单节点体系结构模型

文件系统核心模块:

NameNode (群集中的主节点,主要用于管理群集中各种数据的secondaryNameNode )主要用于辅助管理hadoop中元数据信息的DataNode )群集中的从节点,主要是群集

ResourceManager :节点管理器,负责接收用户的计算请求任务并为群集分配资源:主要接收applicationMaster分配的任务appMatser主要负责资源申请,任务分配是NameNode和资源管理器的高可用性架构模型

文件系统核心模块:

NameNode )群集中的主节点,主要用于管理群集中的各种数据,通常使用两个节点来实现HA高可用性JournalNode )元数据信息管理过程。 通常为奇数个DataNode )从节点,是用于存储数据的数据计算核心模块。

资源管理器: yarn平台的主节点主要用于接收各种任务,通过两个建立高可用性节点管理器: yarn平台的从节点,主要是资源此后,Gartner、IDG等公司分析师、Hadoop用户、Hadoop和大数据圈的人们反映出了越来越多的问题。

其原因主要有以下几点。

Hadoop堆栈过于复杂,组件多,集成困难,成本太高,Hadoop创新速度不够快,或者起点过低,缺乏统一的理念和管理,其众多组件之间的集成非常复杂,ccom 特别是S3类对象存储提供了比Hadoop更便宜、更容易使用和可伸缩的存储。 撬动了Hadoop根基的HDFS对Hadoop期望过高,Hadoop诞生于廉价的存储和批处理。 同时,Hadoop有望解决大数据的所有问题,因预期不一致导致不满意度低的人才价格昂贵,人才短缺综合起来,第一代大数据方案Hadoop的巅峰已经过去,大数据是第二代:分布式数据

分布式数据库特别是MPP数据库很好地解决了大数据的基本分析层次问题,未来将继续向更方便、更快的方向发展。

高级数据分析正在向数据库内部下沉的方向发展。 高级数据分析水平的难点不在于分析,而在于数据本身的数量和质量。 我期待着这方面出现更多的创新。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。