首页 > 编程知识 正文

阿里数据中台与AI中台的关系,阿里云数据中台的优劣势

时间:2023-05-03 15:27:02 阅读:287054 作者:2606

企业发展初期,数据研发是紧贴业务发展而演变的,数据体系基于业务单元垂直建立,形成多个垂直化业务数据体系。

 

随着企业发展,业务需要的数据不再是垂直化的,向数据研发提出了多数据类型的数据使用需求。

 

跨垂直单元的数据问题繁多:

 

1)数据标准不统一

在建立OneData之前,阿里数据有30000多个指标,其中,即使是同样的命名,但定义口径却不一致。例如,仅uv这样一个指标,就有十几种定义。带来的问题是:都是uv,我要用哪个?都是uv,为什么数据却不一样?

 

2)服务业务能力

由于数据模式是跟着垂直业务,导致一开始只支持了淘宝、天猫、1688等少数业务团队。而更多有个性化需求的业务团队却无法提供更多支持。

 

3)计算存储成本

由于没有统一的规范标准管理,造成了重复计算等资源浪费。而数据表的层次、粒度不清晰,也使得重复存储严重,仅淘系的数据表就超过了25000张,集团总数据的存储量每年以2.5倍的速度在增长,可以预见的未来的将会带来巨大的数据成本负担,我们不得不去做一些改变。

 

4)研发成本

每个工程师都需要从头到尾了解研发流程的每个细节,对同样的“坑”每个人都会重新踩一遍,对研发人员的时间和精力成本造成浪费

 

阿里数据中台战略中的OneData统一数据标准和实时数据分析就解决了打通垂直化业务数据的需求。

 

OneData是阿里数据中台的核心,OneData体系建立在集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。

 

OneData数据公共层对原30000多个数据指标进行了口径规范和统一,梳理缩减为3000余个。

 

 

OneData体系

 

 

OneData体系即建立企业统一的数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。

 

以Kimball的维度建模为核心理念基础的模型方法论,同时对其进行了一定的升级和扩展,构建了阿里集团的数据架构体系——OneData

 

该体系包含:数据规范定义体系、数据模型规范设计、ETL规范研发以及支撑整个体系从方法到实施的工具体系。

 

 

1数据规范定义 

 

 

OneData体系中将此前个性化的数据指标进行规范定义,抽象成:原子指标、时间周期、其他修饰词等三个要素。

 

如:业务方提出的需求:最近7天的成交

 

分解为:原子指标(支付订单金额)+修饰词-时间周期(最近7天)+修饰词-卖家类型(自营)

 

 

2数据模型架构 

 

将数据分为ODS(操作数据)层、CDM(公共维度模型)层、ADS(应用数据)层。

 

ODS层主要功能

同步:结构化数据增量或全量同步到ODPS;

结构化:非结构化(日志)结构化处理并存储到ODPS;

累积历史、清洗:根据数据业务需求及稽核和审计要求保存历史数据、数据清洗;

 

CDM层主要功能

CDM层又细分为DWD层和DWS层,分别是明细宽表层和公共汇总数据层,采取维度模型方法基础,更多采用维度退化手法,减少事实表和维度表的关联,加强维度到事实表强化明细事实表的易用性;

 

同时在汇总数据层,加强指标的维度退化,采取更多宽表化的手段构建公共指标数据层,提升公共指标的复用性,减少重复的加工。

 

ADS层主要功能

个性化指标加工:不公用性;复杂性(指数型、比值型、排名型指标)

 

基于应用的数据组装:大宽表集市、横表转纵表、趋势指标串

 

其模型架构图如下,阿里通过构建全域的公共层数据,极大的控制了数据规模的增长趋势,同时在整体的数据研发效率,成本节约、性能改进方面都有不错的结果。 

 

 

 

3研发流程和工具落地实现

 

将OneData体系贯穿于整个研发流程的每个环节中,并通过研发工具来进行保障。

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。