浅析大数据框架 Hadoop～

Hadoop的概念及其发展Hadoop最早源于Nutch。 Nutch的设计目标是构建包含网页捕获、索引、查询等功能的大型网页搜索引擎，但随着捕获的网页数量的增加，——实现了数十亿页的存储和索引

2003年、2004年谷歌发表的两篇论文为这个问题提供了可行的解决方案。

用于处理大型网页存储的分布式文件系统(GFS )。分布式计算框架MAPREDUCE可以用于处理大量网页的索引计算问题。 Nutch的开发者将HDFS和MAPREDUCE实现合理的开源，从Nutch上剥离出来成为独立项目HADOOP，到2008年1月，HADOOP成为Apache的顶级项目，迎来了其快速发展期。

广义上，Hadoop指的是大数据的一个生态圈，包括许多其他软件。狭义上，Hadoop单独指的是名为Hadoop的软件。

介绍Hadoop的历史0.x系列的版本。是Hadoop中最早的开源版本，在国外使用较多。因为当时国内的大数据还没有发展，所以在此基础上发展起来的1.x和2.x的版本

1.x版本系列：是存在时间最短的一代，包括修复hadoop版本中第二代开源版本，主要是0.x版本的错误。

2.x版系列：架构发生了巨大的变化，引入了yarn平台等诸多新功能，国内目前使用最多的版本，是因为当时国内正处于大数据爆发的阶段。

版本3.x系列：引入了一些关键功能和优化，包括HDFS删除修复、多个Namenode支持、MR Native Task优化以及基于cgroup的YARN内存和磁盘I/o分离，从而实现了最低的JDK bar 发行时间晚，现在不怎么使用，但将来会成为主流吧。

hadoop三大企业发型简介-免费开源版本apache官网： http://hadoop.apache.org/

优点：有全球开源贡献者，代码更新迭代版本快

缺点：可能很少考虑版本升级、版本维护、版本兼容性和版本补丁。可以使用学习，但尽量不用实际的生产工作环境

所有apache软件的下载位置(包括各种历史版本) :

http://archive.apache.org/dist/

-免费开源hortonWorks官方网站： https://hortonworks.com/

hortonworks是雅虎主导Hadoop开发的副总裁，带领20多个核心成员对hortonworks、核心产品软件HDP(ambari )、HDF进行免费开源，并通过web界面web管理界面软件hdf网站(3358ambbarks

-软件付费版本ClouderaManager官方网站： https://www.cloudera.com/

cloudera主要是美国一家大数据公司开发的apache开源hadoop版本，通过自身内部的各种补丁，实现跨版本的稳定运行，大数据生态圈的各版本软件均提供相应的版本

Hadoop的模块构成了Hadoop HDFS。是一个可靠性和吞吐量都很高的分布式文件系统。 Hadoop MapReduce :分布式离线并行计算框架。 Hadoop YARN :作业调度和集群资源管理框架。 Hadoop Common :支持其他模块的工具模块。 Hadoop体系结构模型NameNode和资源管理器单节点体系结构模型

文件系统核心模块：

NameNode (群集中的主节点，主要用于管理群集中各种数据的secondaryNameNode )主要用于辅助管理hadoop中元数据信息的DataNode )群集中的从节点，主要是群集

ResourceManager :节点管理器，负责接收用户的计算请求任务并为群集分配资源：主要接收applicationMaster分配的任务appMatser主要负责资源申请，任务分配是NameNode和资源管理器的高可用性架构模型

文件系统核心模块：

NameNode )群集中的主节点，主要用于管理群集中的各种数据，通常使用两个节点来实现HA高可用性JournalNode )元数据信息管理过程。通常为奇数个DataNode )从节点，是用于存储数据的数据计算核心模块。

资源管理器： yarn平台的主节点主要用于接收各种任务，通过两个建立高可用性节点管理器： yarn平台的从节点，主要是资源此后，Gartner、IDG等公司分析师、Hadoop用户、Hadoop和大数据圈的人们反映出了越来越多的问题。

其原因主要有以下几点。

Hadoop堆栈过于复杂，组件多，集成困难，成本太高，Hadoop创新速度不够快，或者起点过低，缺乏统一的理念和管理，其众多组件之间的集成非常复杂，ccom 特别是S3类对象存储提供了比Hadoop更便宜、更容易使用和可伸缩的存储。撬动了Hadoop根基的HDFS对Hadoop期望过高，Hadoop诞生于廉价的存储和批处理。同时，Hadoop有望解决大数据的所有问题，因预期不一致导致不满意度低的人才价格昂贵，人才短缺综合起来，第一代大数据方案Hadoop的巅峰已经过去，大数据是第二代：分布式数据

分布式数据库特别是MPP数据库很好地解决了大数据的基本分析层次问题，未来将继续向更方便、更快的方向发展。

高级数据分析正在向数据库内部下沉的方向发展。高级数据分析水平的难点不在于分析，而在于数据本身的数量和质量。我期待着这方面出现更多的创新。