大数据处理框架,简单介绍一位名人

给初学者

一，恶龙出巢

大数据，顾名思义，就是数据不断增加、壮大。我知道很多人对这个解释嗤之以鼻，但经过我花时间学习，我发现这个概念就是这样，没有必要上升到难以理解的高度。

不能理解的问题是你对数据的大小完全没有概念。

我们每次在网上操作，都只是重新添加、删除和修改数据。未来，随着网络APP应用的增加，人们对网络的需求越来越大，每个网民都相当于一个巨大的数据集，你的经历有多少，你看过也听过，你的数据有多少

随着数据的增长，有多少资源用于收集、传输、计算和存储。数据存储硬件越来越大，不能要求计算机硬件越来越快。因为所有硬件的资源都在一定程度上受限于物资的资源。因此，我们必须解决未来发展中的这些困难问题。也就是说，产生了一系列关于大数据的学问和产品。

二，勇士拔剑

计算机科学是一种数据结构算法。

大数据作为计算机科学的一个分支，解决问题也从这两个角度出发。揭开革命的第一步的是谷歌在04年发表的论文MapReduce，实际上在这篇论文之前就已经有了很多类似想法的发表，但是推进技术革命需要资本。这篇论文的重要思想在于他给出了分布式计算的典型算法实现了巨大数据集计算能力的成功分布这样，即使我们不依赖硬件的提高，也可以只通过算法实现大数据的计算。

举个例子，现在有必要对全校的毕业论文进行每个单词的词数统计。 MapReduce的做法是，对各论文的各单词首先进行(we，0 )那样的键值对形式的变换(Map )，然后将变换后的键值对集合分布在簇下的各子节点上)，从而将各一般的计算机分为较少的论文数

三，恶龙咆哮

我们现在熟悉的框架基本上是开源的，自从Apache的Hadoop掀起了全民使用MapReduce Hadoop的热潮之后，大数据方向的框架发展了，进步了，逐渐适应了人们的生活

从前面的例子可以看出，处理人们日常生活中产生的大数据有很多步骤。

数据收集(Apache Flume )数据缓冲区、分布式消息队列(Apache Kafka )数据实时计算(Apache Hadoop、Spark、Storm、Flink )数据存储(HBase )

在此期间，有很多补充大数据的产品，如分布式协调工具Zookeeper、数据仓库Hive等。一部分被废除，一部分被更新。

当然，除了Apache家族的一些开源产品之外，市场上还有其它比较流行的分布式框架，例如Redis (分布式存储器)、Dubbo (分布式远程服务呼叫)等。

需要说明的是，从网络层次的角度来看，这些产品都是软件级产品，通过整个网络五层结构的协同，可以紧跟互联网的浪潮，所以就算知道其中一个框架，也只是冰山一角。

四，利刃出击

简而言之，Apache的实时计算框架经历了一系列发展过程：

Hadoop依靠MapReduce的数据处理

Hadoop通过主从模型，建立了一个大数据实时处理框架，通过一系列技术保持并发，可持续高效运行。

名门望族Spark通过RDD进行系统能力扩展

其实Spark对Hadoop有很多创新，但还是在发展的道路上留下了很多Hadoop的身影。其中最重要的创新是Hadoop创建了一个名为分布式灵活数据集(RDD )的数据结构。其中许多存储信息并与其他RDD建立联系。这样，可以控制数据集的大小，并根据业务需要进行数据分流操作，提高了系统的灵活性，通过改进MapRedeuce也大大提高了运行速度。

Storm流处理革新

大数据的创新带来了数据格式的创新，数据不再像以前那样是大规模集成的批处理，而更多的是来自不同地点的分布式实时流媒体计算。 Storm的方式彻底改变了想法，创造了将整个数据像数据流一样处理的独特的数据结构，想关就关水龙头，想打开就控制流程的开启，用自己形成的topology进行业务。

Flink有状态的实时运算

Flink将数据作为流处理，具有ABS等一系列容错机制，在计算时直接计算各状态，保持过程中的状态数据而不是数据本身，在流中设置窗口等概念控制流程，保证可持续化。

HDFS分布式存储

基于一件事说三遍的思想，用一个主从模型进行系统备份，通过心跳保证系统的一致性，其间考虑网络、性能、单点破坏等一系列事件。

关于HBase等分布式存储的框架，由于来源于谷歌的其他论文BigTable思想，在此不再赘述。

以上是大数据实时处理的基本介绍，如果有遗漏，请原谅。学习推荐首先要有理论常识。然后从o'reilly和官方书籍开始，阅读工程代码辅助论文才能见效。