运营复盘数据分析案例(数据赢家)

目前，外部和行业大多数人对数据中心的理解有误，只强调技术的作用，强调技术对业务的推动作用，但在业务领域落地的层面上，技术的发展和发展往往需要服从业务，技术的发展和进步需要业务方面的需求和数据

所以你知道最近蚂蚁在拆除“大中台”吗？

据个人猜测，原因是没有真正了解中台的本质。事实上，阿里在常规的皮包建设数据中，中台的目的主要是提高效率，解决业务一致性问题，最终降低本插件。因此，“解体”是赝品，在“解体”的同时必然在“合并”。 “解体”的一个方面是企业战略布局层面的规划，是框架的升级，如果视野不够，结构就不够。

另一方面，并不是因为组织结构巨大而出现“解体”的动向，而是只有这样才能在效率性和业务整合性方面实现最大利益化的解结合。

数据中心出现的意义在于降低本插件，赋予企业沉淀业务能力，提高业务效率，最终完成数字化转型。前面数据中台建设的价值和意义提到了企业有必要根据自己的实际情况，构建自己企业独特的中台能力。

数据中心发展的过程

让我们从数据处理的维度来谈谈数据中心经历的四个阶段。数据库阶段、数据仓库阶段、数据平台阶段和数据中心阶段。

1、数据库阶段： OLTP (事务处理)是传统关系数据库的主要应用，主要是基本的、日常的事务处理，记录及时的添加、删除、更改、调查。例如银行交易、电子商务等

2、数据仓库阶段：数据仓库系统的主要应用主要是OLAP (在线分析处理)，支持复杂的分析操作，侧重于决策支持，提供直观易懂的查询结果。例如，复杂动态报告分析、用户价值分析等

3、数据平台阶段：其实，目前行业对大数据平台还没有统一的定义。通常，可以使用分布式实时或离线计算框架(如Hadoop/Spark/Storm/Flink )构建计算集群，然后在其上执行各种计算任务，以完成数据

提供了完善的大数据分析基础运行环境，统一二次开发接口等能力，也是理解上的大数据平台。主要是为了解决大数据存储计算数据应用管理任务监控数据资产管理开发管理可视化报告需求等

4、数据中心阶段：拥有全球级、可重用的数据资产中心和数据能力中心，在收集、计算、存储、加工大量数据的同时，统一标准和口径，拥有清洁、透明、智慧的数据资产和高效、易用的数据能力

数据仓库、数据平台和数据中心体系结构

【数据仓库的体系结构图】

1、采集层

在从各种数据源收集数据并将其存储在基于Hadoop的分布式文件系统HDFS中之前，必须执行ETL操作。其中数据收集一般使用Flume收集日志，使用Sqoop使RDBMS及NoSQL中的数据与HDFS同步

数据源主要是日志数据(服务器日志系统日志等)业务数据库) Mysql、Oracle等)嵌入点数据)服务端嵌入点移动端嵌入点数据等)其他数据) Excel

2、存储和分析层

主要有离线计算实时计算

存储系统基于Hadoop分布式文件系统存储收集层的数据

消息系统：加入Kafka以防止数据丢失

离线计算：不要求实时性的部分，通常将计算结果保存为Hive

实时计算：在Spark Streaming、Storm上消耗通过Kafka收集的日志数据，通过实时计算将结果保存到Redis

机器学习：使用Spark MLlib提供的机器学习算法

3、共享层

离线和实时计算的数据分析和计算结果存储在数据共享层，成为数据共享层，主要是数据分发和调度中心。通过Hive、MR、Spark、SparkSQL进行分析，计算结果存储在HDFS中，因此业务和APP直接从h进行

DFS上获取数据。其中使用Kylin作为OLAP引擎做多维度分析

4、数据应用

报表展示 + 数据分析 + 即席查询 + 数据挖掘

5、任务调度与监控

【数据平台架构图】

1、采集层

基于Hadoop分布式文件系统对采集层的数据进行存储。

结构化数据：通过两种途径抽取并存放到HDFS分布式文件系统中，能够序列化的数据，直接存放到HDFS中;不能够序列化的数据,通过数据整理后统一存放在分布式数据库环境中, 再经过序列化后和整理后还不能序列化的数据一样直接存放到HDFS中;半结构化和非结构化数据：各种日志数据(通常序列化半结构化数据)直接存放到HDFS中;点击流和数据接口中的数据(通常序列化半结构化数据)直接存放到HDFS中；非结构化的数据直接存放到HDFS中

2、数据层

一方面，把相关业务结构化数据和有一定格式关系的半结构化的数据存放在Hadoop Hive数据仓库中，基于业务需求，按照特定的业务主题域进行数据集市的构建；另一方面把相关业务中半结构化的数据直接存放在HDFS分布

3、计算层

离线计算 + 实时计算

4、应用层

可视化数据分析报表 + 具体的场景应用

（此处已添加小程序，请到今日头条客户端查看）

5、任务调度与监控

数据仓库、数据平台和数据中台的区别与联系

数据仓库、数据平台和数据中台的区别与联系：

1、在概念层面上

数据平台和数据中台的技术能力都是基于数据仓库发展而来的，在数据建设理论上一脉相承，他们处理的对象都是海量数据，服务目的、商业价值也同样类似。其实中平台和中台，两者在能力上都有对外都提供Open API服务。

一方面，中台是业务应用，不具体代表着某种技术，它不是最终用户能直接使用的，必须结合企业的各个数据业务场景；另一方面，平台是不带有业务特征性质的，主要汇集其他人的能力，整合成平台的能力，相对来说是静态的，而中台是动态变化的本身，需要通过数据驱动的方式来滋养业务，不断训练调整业务模型和业务算法提供的能力，提供给其他系统和平台集成的能力。

2、在数据层面上

数据仓库的数据来源主要来源于RDBMS，其中存储的数据格式以结构化数据为主，这些数据并非企业全量数据，而是根据企业业务需求做针对性整合、抽取。数据平台和数据中台的数据来源的期望都是全域级的数据，主要有结构化数据、半结构化数据、非结构化数据等

3、在目标层面上

数据仓库基于单机的，一旦数据量变大，会受单机容量、计算以及性能等方面的限制。主要用来做报表分析，目的性相对来说单一，只是针对相关分析报表用到基础数据，进行抽取、整合、数据清洗和分析。比如，新增一张报表，就要从底层到上层再做一次，流程上相对来说繁琐；数据平台建立是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题以及计算和性能等问题。汇集整合打通数据，数据清洗后，当业务提出需求的时候，把业务方需要的若干个小数据集单独提取出来，以数据集的形式提供给业务方去使用；数据中台通常会对来自多方面的基础数据进行数据清洗后，然后按照主题域的概念建立多个以事物为主的主题域；和数据平台在底层建设上都是基于分布式计算平台和存储平台，理论上可以通过无限扩充平台的计算和存储能力。目标是都是为了融合整个企业的全域级数据，打通数据之间的隔阂，消除数据标准和口径不统一的问题。

4、在应用层面上

建立在数据中台上的数据应用场景，不仅仅只是面向于数据报表开发分析与展示处理，更多是将数据变成服务化的方式，然后提供给业务系统，比如面向用户的画像系统，搜索/推荐/广告营销系统等。