首页 > 编程知识 正文

大数据元数据管理开源,量元大数据

时间:2023-05-04 22:18:51 阅读:207942 作者:4158

十二、数据管理篇——元数据 12.1 元数据概述12.2 元数据价值12.3 统一元数据体系建设12.4 数据建模12.5 产品12.5.1 Data Profile12.5.2 元数据门户12.5.3 应用链路分析

12.1 元数据概述

传统的定义:元数据是关于数据的数据。打通了元数据、数据仓库、数据应用,记录了数据从生产到消费的全过程。
<>
元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。

技术元数据(Technical Metadata):存储的是数据仓库系统技术细节的数据,用于开发和管理数据仓库使用的数据。

分布式计算系统存储元数据。包括表的名称、分区信息、类型,生命周期,列的字段名、类型等

分布式计算系统运行元数据。包括所有作业运行信息,包括实例名称、执行时间、执行日志等

数据开发平台中数据同步、计算任务、任务调度等信息。包括同步的输入输出表、同步的节点信息,任务本身的节点信息,任务的依赖类型、关系。

数据质量和运维相关元数据。如任务监控,运维报警,任务监控运行日志

业务元数据(Business Metadata):从业务角度描述数据,提供了介于使用者和实际系统之间的语义层

OneData元数据。包括维度、属性、业务过程、指标等规范化定义

数据应用元数据。数据报表、数据产品等配置

12.2 元数据价值

是数据管理、数据内容、数据应用的基础,在数据管理方面为集团数据提供在计算、存储、成本、质量、安全、模型等治理领域上的数据支持。

数据的真正价值在于数据驱动决策,通过数据指导运营。

计算上,利用元数据查找超长运行节点,进行治理,保证基线产出

内容上,进行数据域、数据主题、业务属性等提取和分析提素材

利用元数据构建知识图谱,打标签

应用上,打通链路,保证产品数据准确、及时产出

12.3 统一元数据体系建设

元数据建设的目标是打通数据接入到加工,再到数据消费整个链路,规范元数据体系与模型,提供统一的元数据服务出口,保障元数据产出的稳定性和质量

投资回报率(ROI)是一种绩效评估,用于评估投资效率或比较许多不同投资的效率。投资回报率试图直接衡量特定投资的回报量,相对于投资成本。为了计算投资回报率,将投资的收益(或回报)除以投资成本。结果以百分比或比率表示。ROI=收回价值 / 成本投入 *100%

12.4 数据建模

可以通过下游所使用的元数据指导数据参考模型

所使用的元数据:

表的基础元数据,下游情况、查询次数、关联次数、聚合次数、产出时间

表的关联系统元数据,关联表、关联类型、关联字段、关联次数

表的字段的基础元数据,字段名称、注释、查询次数、聚合次数、过滤次数

在星形模型设计中,可能用到类似的元数据

基于下游中关联次数或查询次数大于阈值的表,筛选用于数据模型建设的表

基于表的字段元数据,如时间字段,选择业务过程标识字段

基于主从表的关联关系、次数,确定和主表关联的从表

基于主从表的字段使用情况,如字段的查询、过滤、聚合次数,确定哪些字段进入目标模型

12.5 产品

核心思路是为纷繁复杂的数据建设一个脉络清晰的血缘图谱。通过图计算、标签传播算法等技术,系统化、自动化地对计算与存储平台上的数据进行打表、整理、归档。承担数据画像的任务

12.5.1 Data Profile

Data Profile 开发了四类标签:

基础标签:针对数据的存储、访问情况、安全等级进行打标

数仓标签:针对数据是全量还是增量、是否可再生、数据的生命周期来处理

业务标签:针对数据归属的数据域、产品先、业务类型来处理

潜在标签:说明数据潜在的应用场景,如社交、媒体、广告等

12.5.2 元数据门户

最重要的产品就是元数据门户,包括前台和后台。

前台:数据地图,定位消费市场,实现检索数据、理解数据等“找数据”需求

提供方便快捷的数据搜索服务,拥有功能呢强大的血缘信息及影响分析

后台:数据管理,定位一站式数据管理,实现成本、安全、质量管理

服务于个人开发者、BU管理者、系统管理员,提供资产、成本、质量管理

12.5.3 应用链路分析

对于某个表或任务,重要程度如何?可以通过血缘链路统计到数据在计算、存储、质量上存在的问题。

表级血缘的两种计算方式

通过MaxCompute任务日志进行解析

根据任务依赖进行解析

对于难度较大的表的应用血缘解析分,根据应用和物理表的配置关系,分为:

一、配置型,数据源直接或间接使用Max Compute数据,且有元数据配置依赖关系。如数据报表等应用

二、无配置型,数据源通过同步方式同步到数据库,且无元数据配置依赖关系,主要通过统一的应用日志打点SDK来解决,可以做到配置化、应用无痕迹。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。