首页 > 编程知识 正文

阿里巴巴大数据案例,阿里巴巴大数据实践之路

时间:2023-05-06 16:22:44 阅读:37464 作者:3232

阿里巴巴大数据之路-大数据领域建模概述为什么需要数据建模? Linux的创始人Torvalds有一句话:“什么是优秀的程序员?” “腐朽的程序员关心代码,好的程序员关心数据结构和它们之间的关系。 “数据建模的好处性能:卓越的数据模型有助于快速查找所需的数据,并减少110个数据吞吐量。 成本:良好的数据模型可以大大降低不必要的数据冗馀,实现计算结果的复用,大大降低大数据系统中的存储和计算成本。 效率:良好的数据模型可以大大改善用户使用数据的体验,提高数据的使用效率。 质量:良好的数据模型可以改善数据统计口径的不一致性,减少数据计算错误的可能性。 OLTP与OLAP建模的区别OLTP的主要数据操作是随机读写,主要使用满足3NF的实体关系模型存储数据,解决事务处理中数据冗馀和一致性问题的OLAP的主要数据操作是, 它是OLAP未关注的大量读写事务处理中一致的数据集成,是一次性复杂大数据查询和处理中性能建模方法学ER模型的概述

数据仓库之父Bill lnmon提出的建模方法是从整个企业的高度设计3NF模型,用实体关系(Entity Relationship,ER )模型描述企业业务,在正规理论上符合3NF。 数据仓库中的3NF和OLTP系统中的3NF的区别在于,它们是以企业为视角的面向主题的抽象,而不是对特定业务流程的物理对象关系的抽象。 特长

有必要全面了解企业的业务和数据。 实施周期非常长。 对建模者的能力要求非常高。 建模步骤

高层模型

描述主要主题和主题之间关系的高度抽象模型。 用于概述企业的整个业务。 中间层模型

根据高层模型,细化主题数据项。 物理模型(也称为基础模型)。

基于中间层模型,在考虑物理存储的同时,还可以根据性能和平台特征进行物理属性设计,进行几个表的集成、分区的设计等。 维度模型概述

维度模型由数据仓库领域的Ralph Kimball大师提出,他的The Data阳rehouse岛ol kit-thecompleteguidetodimensionalmodeling是数据仓库工程领域最受欢迎的特长

从分析决策需求出发建立模型,服务于分析需求的大型复杂查询的响应性能通常分为星形模型和一些特殊场景中使用的雪花模型

雪花星形模型星座模型建模规程

选择需要分析决策的业务流程

业务流程可以是单个业务事件,例如交易支付、退款等; 它可以是一个事件的状态,如当前帐户馀额,也可以是一个由一系列相关业务事件组成的业务流程,需要分析特定事件的发生情况、当前状态或事件流程的效率。 选择粒度

事件分析提前确定所有分析都需要细分的程度,并确定选择的粒度。 粒度是维度的组合。 识别维度表

选择粒度后,必须根据该粒度设计包含维属性的维表,并在分析时对其进行分组和过滤。 选择事实

确定应测定的指标。 Data Vault模型概述

Data Vault是Dan Linstedt首创的模型,是ER模型的派生,其设计出发点也是为了实现数据整合,但不能直接用于数据分析决策。 特长

可核查基础数据层数据的历史性、可追溯性和原子。 不需要数据的过度一致性处理和整合,根据主题概念结构化组织企业数据

汇丰

企业的核心业务实体,由实体key、数据仓库序列代理密钥、装载时间和数据源组成。 链接

表示Hub之间的关系。 这里与ER模型的最大区别在于,可以通过将关系抽象为独立的单元来提高模型的可扩展性。 这可以不变更1 : 1、l :n、n :-n的关系而直接记述。 它由Hub代理密钥、装载时间和数据源组成。 Satellite

Hub的详细说明内容,一个Hub可以有多个Satellite。 它由Hub代理密钥、装载时间、源类型和详细的Hub描述信息组成。 模型实例

Anchor模型介绍

Anchor进一步标准化了Data Vault模型。 Lars. Ri:innback的初衷是设计高度可扩展的模型,其核心思想是所有扩展都是额外的而不是修改的,因此将模型规范为6NF,基本上成为了k-v结构化模型。 构成部分

人工智能

与Data Vault相似的集线器,表示业务实体,仅具有主键。 属性

功能类似于Data Vault中的Satellite,但更规范,结构化了所有k-v。 一个表中只有一个Anchors属性描述。 Ties

就是 Anchors 之间的关系,单独用表来描述,类似于 Data Vault 的 Link,可以提升整体模型关系的扩展能力。

Knots

代表那些可能会在多个 Anchors 中公用的属性的提炼, 比如性别、状态等这种枚举类型且被公用的属性。

模型实例

综合实践 模型设计

ODS:操作数据层

存储所有基础数据,做简单的数据清洗

DWD:明细数据层

采用维度退化的方法,将维度退化到事实表中,减少事实表和维度表的关联,调高明细表的易用性

DWS:汇总数据层

采用更多的宽表化手段,构建公共指标数据层

ADS:应用数据层

存放数据产品个性化的统计指标数据,主要面向前端展现

DIM:维度表

存储所有维度表数据

读感:
阿里巴巴大数据之道-大数据领域建模综述,本章节主要简述了数仓建模的基本方法论,不设计到理论的实践。解答了为什么要数据建模?以及建模的方法论有哪些?
可以做个初步的数仓建模理论理解,目前大多选择维度建模为主+宽表输出建设。要想更好的理解每个模型的优劣和不同点,还需要多实践。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。