首页 > 编程知识 正文

大数据实时处理,大数据系统分析

时间:2023-05-04 14:00:21 阅读:53260 作者:1031

1引言

大数据技术的广泛应用引领了许多行业技术的进步,成为促进利润增长的重要支撑技术。 根据数据处理的时效性,大数据处理系统可分为批式(batch )大数据和流式(streaming )大数据两种。 其中,批量式大数据也称为历史大数据,流大数据也称为实时大数据。

目前主流的大数据处理技术体系主要包括Hadoop[1]及其衍生系统。 Hadoop技术体系实现并优化了MapReduce[2]框架。 Hadoop技术体系主要由谷歌、推特、脸书等公司支持。 自2006年首次发布以来,Hadoop技术体系已由传统的“三驾马车”(HDFS[1]、MapReduce、HBase[3] )发展成为包括60多个相关组件的巨大生态系统。 在该生态系统中,开发了Tez、Spark Streaming[4]等用于处理流数据的组件。 其中,Spark Streaming是基于Spark构建的流媒体大数据处理框架。 与Tez相比,具有吞吐量高、容错能力强等特点,同时支持多个数据源和输出格式。 除了Spark开源流媒体处理框架外,目前广泛应用的流媒体大数据处理系统还有Storm[5]、Flink[6]等。 虽然这些开源流处理框架已经被应用于某些要求时效性的领域,但是在面对各行各业的实际和差异化需求时,这些开源技术有各自的瓶颈。

在互联网/移动互联网、物联网等应用场景中,个性化服务、用户体验提升、智能分析、事中决策等复杂业务需求对大数据处理技术提出了更高的要求。 为了满足这些需求,大数据处理系统必须在毫秒级或微秒级的时间内返回处理结果。 以国内最大的银行卡支付机构银联商务为例,日交易额接近亿笔,对旗下540多万家店铺进行实时风险监测,确保这些店铺合规性并开展支付业务,同时最大限度地提高个人用户合法权益这种高同时、大数据、高实时的应用需求对大数据处理系统提出了严峻的挑战。 银联商务以前使用的t

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。