首页 > 编程知识 正文

dfm设计规范,dws层数据

时间:2023-05-05 03:59:38 阅读:130378 作者:2798

ODS层设计规范更新时间: 2021-06-08 14:37

我的收藏

此页面的目录

数据同步和处理规范命名规范数据存储和生命周期管理规范数据质量规范本文介绍了ODS层设计规范。

选择数据同步和处理规范数据同步方式基本规范以需求形式落地数据集成到数据工作中,规范落地情况取决于工具的推进节奏。 系统的源表只允许同步到MaxCompute一次。

数据加载和处理通过一键实时同步到MaxCompute方案来实现。 请参阅配置可查看项同步任务。

命名规则表命名规则表命名规则: {分层}{源系统表名}{是否保留位/增量}。 增量数据: {project_name}.s{源系统表名}delta。 总量数据: {project_name}.s{源系统表名}。 ODS ETL过程的临时表: {project_name}.tmp{包含临时表的过程的输出表} {从0开始的序列号}。按小时同步的增量表:{project_name}.s{源系统表名}{delta}_{hh}按时间划分的同步全比例: {project_name}.s{源系统表名}{hh}。 如果不同的源系统与同一个Project下的表的名称冲突同步,则必须将源系统的dbname添加到同步较慢的表名中以解决冲突。 默认情况下,字段命名约定字段使用源系统中的字段名称。 如果字段名称与MaxCompute关键字冲突,请在源字段名称后添加col,即源字段名称col。 有关MaxCompute关键字的详细信息,请参阅保留字和关键字。 同步任务命名约定任务名称: {源系统表名称}[增量]。说明同一项目中不同库同名表的任务名称为{源系统表名称}{tddl中的appname}[_delta]。

任务的输出名称或输出表的名称必须与数据存储和生命周期管理规范相匹配。 有关详细信息,请参阅数据存储和生命周期管理规范。 数据存储和生命周期管理规范数据表类型保留方法最长存储保留策略ODS流水型满刻度按日划分并永久存储(如果不可播放)。 日志(数据量非常大,例如每天的数据量超过100 GB )数据将保留24个月。 自主设定是否保留历史月初数据。 自主设定是否保存特殊的日期数据。 根据需要,ODS镜像完整比例存储在每个需要保留重要业务表和历史记录的表中。 ODS全刻度的默认生命周期为两天,ds=max_pt(tablename)方式访问数据ODS增量表包含按天计算的完整比例,最多可存储14天的分区数据。 没有对应的满刻度,需要永久保存数据。 ODS ETL进程临时表在每日分区中最多保留7天的分区。 DBSync非去除数据由APP应用程序通过中间层保留历史数据,而缺省ODS层不保留历史数据。 数据质量规格每个ODS满刻度都必须具有唯一的字段id。 每个ODS的所有尺度都需要注释。 每个ODS满刻度都必须监视分区的空数据。 只有监视所需的ODS表才需要制定数据质量监视规则。 可以使用DataWorks配置数据质量监视规则。 有关详细信息,请参阅配置数据质量监视。 建议监视重要表中重要枚举类型字段的枚举值的变化和枚举值的分布。 建议对ODS表的数据量和数据记录数设定周和周的环比监视。 周与周的环比无变化表示源系统已迁移或脱机。

完全覆盖即可- -每天创建最新的分区,而不是--delete directory,以查看历史的变化情况

增量表在表名后面有时间。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。