数字资源管理系统,大数据平台部署

以前，我写了《企业级大数据平台建设参考 | 淘宝滴滴美团360快手京东》。本文是温暖的松鼠老师 《大数据技术架构：核心原理与应用实践》 书的部分内容，看看来自同道旅行交通首席设订者的分享。我和wndl和英雄所见略同吗？另外，请参考：

《企业级一站式大数据开发平台理论及实践》

《ApacheSpark在海致大数据平台中优化实践》

http://www.Sina.com/http://www.Sina.com /

常规大数据平台的体系结构方案是基于大数据平台Lamda体系结构设计的。事实上，业界也基本上基于这一体系结构模式构建了自己的大数据平台。

来看看淘宝、美团、滴滴的大数据平台吧。一方面进一步学习大制造商的大数据平台框架，另一方面也学习大制造商的工程师如何绘制框架图。从大厂的这些结构图可以看出，这些知名大厂大数据平台的设计方案不仅相似，而且结构图的绘制方法也有其出路。

《快手大数据平台服务化实践》

淘宝可能是中国互联网行业最早建立自己大数据平台的公司。图1是淘宝早期的Hadoop大数据平台，很典型。

图1

淘宝大数据平台基本上分为三个部分，上面是数据源和数据同步模块。中间是云梯1，也就是淘宝的Hadoop大数据集群；以下是大数据的应用，也就是使用大数据集群的计算结果。

数据源主要来自Oracle和MySQL库，以及日志系统和爬虫系统，这些数据通过数据同步网关服务器导入到Hadoop群集。其中包括数据交换非实时全同步数据库数据、DBSync实时同步数据库增量数据、TimeTunnel实时同步日志和爬虫数据。所有数据都写入HDFS。

Hadoop中的计算任务通过skynet调度系统根据群集资源和作业优先级来调度作业的提交和运行。计算结果写入HDFS并通过DataExchange同步到MySQL和Oracle数据库。平台下的数据魔方、推荐系统等可以通过从数据库读取数据来实时响应用户的交互请求。

淘宝大数据平台的核心是架构图左侧的天网调度系统，提交给Hadoop集群的任务需要按顺序、按优先级执行，Hadoop集群定义的任务也要按照时间表执行从日志、爬虫系统导入数据也需要定时运行，将Hadoop运行结果导出到APP应用系统数据库也需要定时运行。整个大数据平台，如图2所示，可以说是在天网调度系统的统一规划和安排下运行的。

图2

数据同步组件(如DBSync、TimeTunnel和DataExchange )也在淘宝内部开发，可以根据不同的数据源和同步需求导入和导出数据。这些组件往往已经开放源代码，请作为参考使用。

美团大数据平台的数据源来自MySQL数据库和日志，数据库通过Canal获取MySQL binlog，输出到消息队列Kafka，日志通过Flume输出到Kafka。如图3所示。

图3

Kafka的数据分别由流计算和批处理计算两个引擎消耗。使用Storm计算流处理，并将结果输出到HBase或数据库。批处理计算使用Hive进行分析计算，结果输出到查询系统和业务智能(BI )平台。

数据分析师认为
以通过BI产品平台进行交互式的数据查询访问，也可以通过可视化的报表工具查看已经处理好的常用分析指标；公司高管也可以通过平台上的天机系统查看公司主要业务指标和报表。

美团大数据平台的整个过程管理通过调度平台进行管理。公司内部开发者使用数据开发平台访问大数据平台，进行ETL（数据提取、转换、装载）开发，提交任务作业并进行数据管理。

滴滴大数据平台

滴滴大数据平台分为实时计算平台（流式计算平台）和离线计算平台（批处理计算平台）两个部分。

实时计算平台架构如图4所示。数据采集以后输出到Kafka消息队列，消费通道有两个，一个是数据ETL，使用Spark Streaming或者Flink将数据进行清洗、转换、处理后记录到HDFS中，供后续批处理计算；另一个通道是Druid，计算实时监控指标，将结果输出到报警系统和实时图表系统DashBoard，如图4所示。

图4

离线计算平台架构如图5所示。滴滴的离线大数据平台是基于Hadoop 2（HDFS、Yarn、MapReduce）和Spark以及Hive构建的，并在此基础上开发了自己的调度系统和开发系统。调度系统和前面其他系统一样，调度大数据作业的优先级和执行顺序。开发平台是一个可视化的SQL编辑器，可以方便地查询表结构、开发SQL，并发布到大数据集群上。

图5

此外，滴滴还重度使用HBase，并对相关产品（HBase、Phoenix）做了一些自定义的开发，维护着一个和实时、离线两个大数据平台同级别的HBase平台，它的架构图参见图6。

图6

来自实时计算平台和离线计算平台的计算结果被保存到HBase中，然后应用程序通过Phoenix访问HBase。而Phoenix是一个构建在HBase上的SQL引擎，可以通过SQL方式访问HBase上的数据。

学架构就是学架构模式

可以看到，这些知名大厂的大数据平台真的是大同小异，虽然由于各自场景和技术栈的不同，在大数据产品选型和架构细节上略有差异，但整体思路基本上都是一样的。

不过也正是这种大同小异，让我们能从各个角度了解大数据平台架构，对大数据平台架构有更深刻的认知。

我在阿里巴巴工作期间，有一阵子不断参加各种基础技术产品的架构评审会。有一次，另一个和我一样经常参加这类会议的架构师说：“我感觉这些产品的架构怎么都一样”。经他一提醒，大家纷纷点头称是，好像确实如此。

同一类问题的解决方案通常是相似的。一个解决方案可以解决重复出现的同类问题，这种解决方案就称为模式。模式几乎无处不在，一旦一个解决方案被证明是行之有效的，就会被重复使用解决同类的问题。

所以我们看到，很多大数据产品的架构也都差不多，比如Hadoop 1、Yarn、Spark、Flink、Storm，这些产品的架构部署真的是太像了。

对于有志于成为架构师的工程师来说，一方面当然要提高自己的编程水平，另一方面也可以多看看各种架构设计文档，多参加一些架构师技术大会。

在我看来，编程需要天分；而架构设计，真的是熟能生巧。

关于作者：温暖的小松鼠，同程旅行交通首席架构师。曾任阿里巴巴、Intel架构师，长期从事分布式系统与大数据开发，Apache Spark 代码贡献者，腾讯云 TVP，著有畅销书《大型网站技术架构：核心原理与案例分析》。

本文节选自《大数据技术架构：核心原理与应用实践》，想了解更多大数据技术架构的内容，推荐阅读此书。

更多精彩内容请阅读《大数据技术架构：核心原理与应用实践》！

京东满100减50

快快扫码抢购吧！

未来的生活一定是数字化的生活，掌握一些大数据技术总是好事。但本质上它也只是一个工具，人生的旅程，既要紧跟时代，也要谨防随波逐流。相信各位读者能以《大数据技术架构：核心原理与应用实践》一书的内容为起点而非终点，继续探索，走出自己的光明大道。

八千里路云和月 | 从零到大数据专家学习路径指南

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了完美的鲜花也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半，社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

你好，我是王知无，一个大数据领域的硬核原创作者。

做过后端架构、数据中间件、数据平台&架构、算法工程化。

专注大数据领域实时动态&技术提升&个人成长&职场进阶，欢迎关注。