大数据技术现状及发展趋势,大数据发展现状与趋势论文

牛津大学教授奥特曼在《大数据时代》年的一篇文章中说，大数据时代是“已经发生的未来”，这个已经发生的未来没有旁观者。

作为时代的必然产物，大数据正在加速渗透到我们的日常生活中，完成对各个传统领域的颠覆。本文从大数据时代的特点出发，向读者介绍当前大数据技术的发展趋势和大数据的生态体系。

大数据时代的特点和市场规模

大数据时代的两个特征。第一，大数据技术以开源为主，从来没有形成绝对的技术垄断，即使是IBM、甲骨文等行业巨头，也只是将开源技术与该公司现有产品进行了整合。开源技术向每个国家开放，中国企业同样可以共享开源蛋糕，但需要以更开放的心态、更开放的思想正确对待开源社区。第二，中国的人口和经济规模决定了中国的数据资产规模居世界之冠。

我国数据产生能力巨大，大数据资源极为丰富。国际数据公司(IDC )监测数据显示，2018年全球大数据储量规模达到33ZB，中国数据储量占全球数据总量的23%。 2019年，中国大数据产业规模约8500亿元，比2018年增长37.8%，预计到2020年将达到10100亿元。其中金融业约占20%。

图1 :大数据市场预测

笔者认为，大数据超越了信息技术，让人们重新思考公司的战略和组织结构，重新审视产业变迁的驱动因素，重新审视政府管理水平，重新定义国家竞争的主战场。

大数据技术发展趋势

随着大数据技术的发展其各个技术环节呈现出新的发展趋势和挑战根据Gartner的最新分析，主要有五种技术趋势。

01、存储计算分离

在传统的集群系统中，计算和存储紧密耦合。例如，以Hadoop为例，在传统的Hadoop使用中，存储与计算密切相关，随着业务的发展，往往会为扩展存储带来额外的计算容量。这实际上是徒劳的。同样，如果只是为了提高计算能力，就会造成一段时间的存储浪费，将计算与存储分开，就可以很好地应对单方面的不足。

我们认为，存储计算隔离是一种分层体系结构思想，它将存储能力与计算能力分开，分别服务，并通过高速网络连接。以AWS较大的线束体系结构为例，底层统一采用S3存储，存储层设有HIVE、Spark、Flink等各种计算引擎。

02、实时计算及实时数仓

实时计算一般对大量数据执行，要求处于秒级。实时计算主要分为数据实时入库、数据实时计算两部分。

其次，笔者介绍实时计算的主要应用场景。

第一个场景要求数据源实时、不间断，用户响应时间也要实时。例如，大型站点的流数据：站点的访问PV/UV、用户访问了什么内容、检索了什么内容等，实时的数据计算和分析动态地更新用户的访问数据

另一种情况是数据量大、没有预算或不需要，但对用户的响应时间需要实时。例如，昨天是每个省按性别划分的访问量分布，昨天是每个省按性别、年龄、职业别名族划分的访问量分布。

03、人工智能推动数据智能应用

与传统的机器学习算法相比，深度学习提出了一种让计算机自动学习特征的方法，将特征学习融入建模过程中，减少了人为设计特征带来的不足。深度学习利用深度神经网络模型，能够更智能地提取数据不同层次的特征，使数据表现得更准确、更高效。此外，训练样本越多，深度学习算法比传统的机器学习算法更有优势。

图3 :大数据与人工智能交叉

目前，深度学习已经深入到很多领域，在影像分类、语音识别、答疑系统等应用方面取得了重大突破，取得了成功的商业APP应用。随着越来越多的行业和领域完善数据的收集和存储，深度学习的应用将更加广泛。由于大数据应用的复杂性，人工智能与大数据的融合将成为持续的常态。

04、技术趋势，湖仓一体化

9月18日，在2020云栖大会上，阿里巴巴云正式发布了大数据平台新一代——“湖仓一体”，通过数据仓库和数据湖两大体系，在湖与仓之间自由进行数据和计算为企业提供兼具数据湖灵活性和数据仓库增长性的新一代大数据平台，降低企业构建大数据平台的总体成本。

图4 :大数据存在的三种形态

在数据湖结构上建造数仓的尝试并不成功，这表明数仓与数据湖存在本质差异，在数据湖体系上难以建造完善的数仓。数据湖和数据仓库两者难以直接集成为一个系统，基于两者融合的思路进行了探索，AlibabaCloud提出了新一代大数据技术的发展方向。通过湖仓一体，即数据仓库和数据湖两大体系，使数据和计算在湖仓之间自由移动，构建完整的有机大数据技术生态体系。

图5 :数据仓库和数据湖的区别

在AlibabaCloud (阿里巴巴云)的构想中，湖仓议题值得期待。湖泊和仓库数据/元数据无缝沟通，无需用户手动干预；湖泊和仓库具有统一的开发体验，存储在不同系统中的数据可以在统一的开发/管理平台上操作

数据湖与数据仓库的数据，系统负责自动caching/moving，系统可以根据自动的规则决定哪些数据放在数仓，哪些保留在数据湖，进而形成一体化。

05、大数据平台融合云计算

云计算与大数据的发展路线必将交接、碰撞，而这已经成为现实。为什么大家开始对大数据讳莫如深呢？大数据给人留下的印象：花钱多，灵活度低，令人头疼的运营管理等等。好在近年来，Modern Data Warehouse这个概念火了起来，利用云计算的壳解释了现代大数据存在的合理性。而随着企业日新月异的数据需求和技术的进步，更新的架构层出不穷。

以DaaS为例，其既是Function-as-a-Service(FaaS)的一种，也是SaaS的自然延伸，最终目的都是尽可能远离IaaS以及服务本身的运维，把资源最大限度地解放出来进行业务功能的开发，是目前大数据领域最接近这种serverless概念的产品，也许它会成为云时代最好的大数据平台。

大数据庞大生态体系

整个大数据技术家族十分庞大，从数据生产、数据交换、数据存储、数据工程、数据科学计算、数据应用到数据消费整个工程体系中涉及到30多个技术组件。笔者将会重点介绍其中关键的几个：

Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统。

Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

ZooKeeper：Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

Apache Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架

Yarn(分布式资源管理器），YARN是下一代MapReduce，即MRv2，是在第一代MapReduce基础上演变而来的，主要是为了解决原始Hadoop扩展性较差，不支持多计算框架而提出的。

Yarn是下一代Hadoop计算平台，Yarn是一个通用的运行时框架，用户可以编写自己的计算框架，在该运行环境中运行。

图6：大数据技术生态

另外除了上述强大的开源家族支撑以外，还有众多商业文化的公司和组织也在提供技术、产品和服务，围绕整个大数据的生态体系当中。比如有老牌的Oracle、IBM、HP、Teradata，也有兴欣的Cloudera、星环、阿里、华为、snowflake等。可谓是众星捧月，琳琅满目。

总之，大数据技术的兴起正完成对各传统领域的颠覆。全球范围内，运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。各国已相继制定实施大数据战略性文件，大力推动大数据发展和应用。从全球大数据发展的趋势来看，大数据产业推动社会生产要素的网络化共享、集约化整合、协作开发和高效利用，改变了传统的生产方式和经济运行机制，可显著提升经济运行水平和效率。

中国是数据生产大国。目前，中国互联网、移动互联网用户规模居全球第一，拥有丰富的数据资源和应用市场优势。笔者认为，如果能在大数据管理和分析技术的研发与应用方面取得突破，可持续推动创新企业和创新应用的高速成长。

本文仅作为趋势参考，不做商用！！！