目前流行的开源大数据处理框架:Hadoop、Storm、Spark、Flink。
大数据处理分析的相关技术
大数据包括静态数据(批处理)和流数据(实时计算)。此外,大数据还包含了大量的图结构数据,于是一种新的图计算框架应运而生,Pregel就是其中的代表产品。数据可视化是大数据分析的最后一个环节,它通过丰富的视觉效果,以直观、生动、易懂的方式呈现数据。
业界流行的分布式批处理框架包括Apache Hadoop/MapReduce和Apache Spark。流媒体需要流媒体数据处理技术,如Apache Storm、Spark Streaming、Apache Flink等分布式计算引擎都可以支持流媒体数据处理。
目前业界知名的开源大数据处理框架中,流计算和批处理计算都可以支持,典型的有Apache Spark和Apache Flink。
其中,Spark通过批处理方式对不同类型的数据集进行统一处理,对于流数据,则按照批处理方式将数据划分为微批次(有界数据集)。另一方面,Flink通过流处理模式统一处理不同类型的数据集。最后,批处理和流处理统一在一组流引擎中,这样一组引擎可以用于批处理计算和流计算任务。
Pregel是一个基于BSP(批量同步并行)模型的并行图形处理系统。为了解决大型图的分布式计算问题,Pregel搭建了一个具有容错机制的可扩展平台,提供了非常灵活的API来描述各种图的计算。