大数据实时处理,大数据系统分析

1引言

大数据技术的广泛应用引领了许多行业技术的进步，成为促进利润增长的重要支撑技术。根据数据处理的时效性，大数据处理系统可分为批式(batch )大数据和流式(streaming )大数据两种。其中，批量式大数据也称为历史大数据，流大数据也称为实时大数据。

目前主流的大数据处理技术体系主要包括Hadoop[1]及其衍生系统。 Hadoop技术体系实现并优化了MapReduce[2]框架。 Hadoop技术体系主要由谷歌、推特、脸书等公司支持。自2006年首次发布以来，Hadoop技术体系已由传统的“三驾马车”(HDFS[1]、MapReduce、HBase[3] )发展成为包括60多个相关组件的巨大生态系统。在该生态系统中，开发了Tez、Spark Streaming[4]等用于处理流数据的组件。其中，Spark Streaming是基于Spark构建的流媒体大数据处理框架。与Tez相比，具有吞吐量高、容错能力强等特点，同时支持多个数据源和输出格式。除了Spark开源流媒体处理框架外，目前广泛应用的流媒体大数据处理系统还有Storm[5]、Flink[6]等。虽然这些开源流处理框架已经被应用于某些要求时效性的领域，但是在面对各行各业的实际和差异化需求时，这些开源技术有各自的瓶颈。

在互联网/移动互联网、物联网等应用场景中，个性化服务、用户体验提升、智能分析、事中决策等复杂业务需求对大数据处理技术提出了更高的要求。为了满足这些需求，大数据处理系统必须在毫秒级或微秒级的时间内返回处理结果。以国内最大的银行卡支付机构银联商务为例，日交易额接近亿笔，对旗下540多万家店铺进行实时风险监测，确保这些店铺合规性并开展支付业务，同时最大限度地提高个人用户合法权益这种高同时、大数据、高实时的应用需求对大数据处理系统提出了严峻的挑战。银联商务以前使用的t