首页 > 编程知识 正文

大数据之路 阿里巴巴大数据实践,大数据 阿里巴巴

时间:2023-05-05 06:12:30 阅读:207941 作者:805

元数据 元数据概述 元数据定义

元数据( Metadata )是关于数据的数据

打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程

主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态

按用途分两类

技术元数据

技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据

常见技术元数据类型

分布式计算系统存储元数据

理解为数据地图:如表、列、分区、责任人、生命周期等信息。

分布式计算系统运行元数据

理解为系统运行日志:类似Hive的job日志,包括作业类型、实列名称、SQL、运行参数、执行时间、最细粒度等

数据开发平台中数据同步、计算任务、任务调度等信息

理解为血缘关系:数据同步输入输出表与字段、计算任务、任务调度类型、依赖关系等

数据质量和运维相关元数据

理解为任务质量监控:任务监控、运维报警、数据质量、故障等信息,包括任务监控运行日志、告警配置及运行日志、故障信息等

业务元数据

不懂计算机技术的业务人员也能够“ 读懂”数据仓库中的数据

常见业务元数据类型

OneData 元数据

如维度及属性、业务过程、指标等的规范化定义,用于更好地管理和使用数据

数据应用元数据

如数据报表、数据产品等的配置和运行元数据 元数据价值

元数据有重要的应用价值,是数据管理、数据内容、数据应用的基础,在数据管理方面为集团数据提供在计算、存储、成本、质量、安全、模型等治理领域上的数据支持

利用元数据查找超长运行节点,对这些节点进行专项治理,保障基线产出时间在数据内容方面为集团数据进行数据域、数据主题、业务属性等的提取和分析提供数据素材元数据构建知识图谱,给数据打标签,清楚地知道现在有哪些数据在数据应用方面打通产品及应用链路,保障产品数据准确、及时产出 统一元数据体系建设

元数据建设的目标是打通数据接入到加工 ,再到数据消费整个链路,规范元数据体系与模型,提供统一的元数据服务出口,保障元数据产出的稳定性和质量。

统一元数据体系建设思路图

构建思路步骤

梳理清楚元仓底层数据

对元数据做分类,如计算元数据、 存储元数据、质量元数据等,减少数据重复建设,保障数据的唯一性

丰富表和字段使用说明

方便使用和理解

根据元仓底层数据构建元仓中间层

依据 OneData 规范,建设元数据基础宽表,也就是元数据中间层,打通从数据产生到消费整个链路 ,不断丰富中间层数据

对外提供标准统一的元数据服务出口

基于元数据中间层,对外提供标准统一的元数据服务出口,保障元数据产出的质量

为数据质量与模型等治理领域上支持

丰富的元数据 中间层不仅能够为集团数据提供在计算、存储、成本、质量、安全、模型等治理领域上的数据支持,形成一套完整的 ROI 数据体系

提取和分析提供数据素材

为集团数据进行数据内容、数据域、数据主题、业务属性等的提取和分析提供了数据素材 元数据应用 元数据应用价值 数据的真正价值在于数据驱动决策,通过数据指导运营可以用于指导数据相关人员进行日常工作,实现数据化“运营”数据使用者:可以通过元数据让其快速找到所需要的数据ETL开发:可以通过元数据指导其进行模型设计、任务优化和任务下线等各种日常 ETL 工作运维工程师:可以通过元数据指导其进行整个集群的存储、计算和系统优化等运维作 Data Profile

Data Profile 实际承担的是为元数据“画像”的任务

四类数据标签

基础标签

针对数据的存储情况、访问情况、安全等级等进行打标

数仓标签

针对数据是增量还是全量、是否 可再生、数据的 生命周期来进行标签化处理

业务标签

根据数据归属的主题域、产品线、业务类型为数据打上不同的标签

潜在标签

这类标签主要是为了说明数据潜在的应用场 景, 比如社交、媒体、广告、电商、金融等

Data Profile构建图

元数据门户

元数据门户致力 打造一站式 的数据管理平台、高效的一体化数据市场

门户产品定位

前台:数据地图

定位消费市场,实现检索数据 、 理解数据等“找数据”需求“

数据地图围绕数据搜索,服务于数据分析、数据开发、数据挖掘、算法工程师、数据运营等数据表的使用者和拥有者,提供方便快捷的数据搜索服务,拥有功能强大的血缘信息及影响分析,利用表使用说明、评价反馈 、表收藏及精品表机制,为用户浮现高质量、高保障的目标数据。 比如在进行数据分析前,使用数据地图进行关键词搜索,帮助快速缩小范围,找到对应的数据;比如使用数据地图根据表名直接查看表详情,快速查阅明细信息,掌握使用规则:比如通过数据地图的血缘分析可以查看每个数据表的来源、去向,并查看每个表及字段的加工逻辑

后台:数据管理

定位于一站式数据管理,实现成本管理、安全管理、质量管理等

数据管理平台围绕数据管理,服务于个人开发者 、 BU 管理者、系 统管理员等用户,提供个人和 BU 全局资产管理、成本管理和质量管理 等。针对个人开发者,主要包括计算费用和健康分管理、存储费用和健 康分管理 ,并提供优化建议和优化接口:针对 BU 管理者和管理员,主 要提供 BU、应用、集群等全局资产消耗概览、分析和预测。

应用链路分析

产出表级血缘、字段血缘和表的应用血缘

表级血缘两种计算方式

任务日志解析任务依赖解析

表的应用血缘解析

应用和物理表的配置关系

配置型

采用统一调度系统配置任务,可以系统解析

无配置型

导入数据或调度其他组件生产数据,导致无法配置解析

解决方式:统一应用日志打点SDK解决

其实还是没太懂怎么去解决的,比如开发平台与程序调度组件问题?通过程序调度配置项目标识?这里面作者也只是随口一提

血缘的应用

主要有影响分析、重要性分析、下线分析、链路分析、寻根溯源、故障排查等 数据建模

元数据指导数据参考建模,提升建模效率

参考使用的元数据

表的基础元数据,包括下游情况、查询次数、关联次数、聚合次数、产出时间等表的关联关系元数据,包括关联表、关联类型、关联字段、关联次数等表的字段的基础元数据,包括字段名称、字段注释、查询次数、关联次数、聚合次数、过滤次数等

星形模型设计指导点

基于下游使用中关联次数大于某个阔值的表或查询次数大于某个阐值的表等元数据信息,筛选用于数据模型建设的表基于表的字段元数据,如字段中的时间字段、字段在下游使用中的过滤次数等 ,选择业务过程标识字段基于主从表的关联关系、关联次数,确定和主表关联的从表基于 主从表的 字段使用情况,如字段的查询次数、过滤次数、关联次数、聚合次数等,确定哪些字段进入目标模型 驱动 ETL 开发

元数据驱动一键、批量高效数据同步的OneClick

这里又提到了one,大意理解阿里系统是设计思路就是”总之一句话“

数据治理判断

通过 Data Profile 得到数据的下游任务依赖情况、最近被读写的次数、数据是否可再生、每天消耗的存储计算等,这些信息足以
让我们判断数据是否可以下线;如果根据一些规则判断可以下线,则 会通过 OneClick 触发一个数据下线的工作任务流,数据 Owner 可能只 需要点击提交按钮,删除数据、删除元数据、下线调度任务、下线 DQC监控等一系列操作就会自动在后台执行完成

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。