阿里数据中台与AI中台的关系,阿里云数据中台的优劣势

企业发展初期，数据研发是紧贴业务发展而演变的，数据体系基于业务单元垂直建立，形成多个垂直化业务数据体系。

随着企业发展，业务需要的数据不再是垂直化的，向数据研发提出了多数据类型的数据使用需求。

跨垂直单元的数据问题繁多：

1）数据标准不统一

在建立OneData之前，阿里数据有30000多个指标，其中，即使是同样的命名，但定义口径却不一致。例如，仅uv这样一个指标，就有十几种定义。带来的问题是：都是uv，我要用哪个？都是uv，为什么数据却不一样？

2）服务业务能力

由于数据模式是跟着垂直业务，导致一开始只支持了淘宝、天猫、1688等少数业务团队。而更多有个性化需求的业务团队却无法提供更多支持。

3）计算存储成本

由于没有统一的规范标准管理，造成了重复计算等资源浪费。而数据表的层次、粒度不清晰，也使得重复存储严重，仅淘系的数据表就超过了25000张，集团总数据的存储量每年以2.5倍的速度在增长，可以预见的未来的将会带来巨大的数据成本负担，我们不得不去做一些改变。

4）研发成本

每个工程师都需要从头到尾了解研发流程的每个细节，对同样的“坑”每个人都会重新踩一遍，对研发人员的时间和精力成本造成浪费

阿里数据中台战略中的OneData统一数据标准和实时数据分析就解决了打通垂直化业务数据的需求。

OneData是阿里数据中台的核心，OneData体系建立在集团数据公共层，从设计、开发、部署和使用上保障了数据口径的规范和统一，实现数据资产全链路管理，提供标准数据输出。

OneData数据公共层对原30000多个数据指标进行了口径规范和统一，梳理缩减为3000余个。

OneData体系

OneData体系即建立企业统一的数据公共层，从设计、开发、部署和使用上保障了数据口径的规范和统一，实现数据资产全链路管理，提供标准数据输出。

以Kimball的维度建模为核心理念基础的模型方法论，同时对其进行了一定的升级和扩展，构建了阿里集团的数据架构体系——OneData

该体系包含：数据规范定义体系、数据模型规范设计、ETL规范研发以及支撑整个体系从方法到实施的工具体系。

1数据规范定义

OneData体系中将此前个性化的数据指标进行规范定义，抽象成：原子指标、时间周期、其他修饰词等三个要素。

如：业务方提出的需求：最近7天的成交

分解为：原子指标（支付订单金额）+修饰词-时间周期（最近7天）+修饰词-卖家类型（自营）

2数据模型架构

将数据分为ODS（操作数据）层、CDM（公共维度模型）层、ADS（应用数据）层。

ODS层主要功能

同步：结构化数据增量或全量同步到ODPS；

结构化：非结构化(日志)结构化处理并存储到ODPS；

累积历史、清洗：根据数据业务需求及稽核和审计要求保存历史数据、数据清洗；

CDM层主要功能

CDM层又细分为DWD层和DWS层，分别是明细宽表层和公共汇总数据层，采取维度模型方法基础，更多采用维度退化手法，减少事实表和维度表的关联，加强维度到事实表强化明细事实表的易用性；

同时在汇总数据层，加强指标的维度退化，采取更多宽表化的手段构建公共指标数据层，提升公共指标的复用性，减少重复的加工。

ADS层主要功能

个性化指标加工：不公用性；复杂性（指数型、比值型、排名型指标）

基于应用的数据组装：大宽表集市、横表转纵表、趋势指标串

其模型架构图如下，阿里通过构建全域的公共层数据，极大的控制了数据规模的增长趋势，同时在整体的数据研发效率，成本节约、性能改进方面都有不错的结果。

3研发流程和工具落地实现

将OneData体系贯穿于整个研发流程的每个环节中，并通过研发工具来进行保障。