首页 > 编程知识 正文

etl实例,ETL教程

时间:2023-05-03 19:32:38 阅读:158033 作者:229

[原创]ETL开发流程随笔ETL开发ETL工作目标ETL工作的目的主要是实现ETL工作流程准备工作ETL开发在线软件包ETL开发模板统一和规范化ETL设计ETL开发ETL测试自动调度系统结构

从ETL开发数据仓库ODS到DWD的ETL工作流记录ETL工作目标

现在,我们正在做销售主题域下的ODS-DWD层的ETL的工作。 我打算记录下工作中遇到的问题和想法,好好开始我们的主题

ETL工作的主要目的是:1.源系统ERP各城市库的集成;2 .各城市不同的规则统一;数据转换;3 .处理数据缺失值;4 .处理异常值;5 .内容中不应出现或存在例如, 房源表为其他系统提供ETL工作流准备工作逻辑设计ETL脚本开发脚本自检准备工作-ETL设计-脚本开发-脚本自检准备工作1 .各城市库综合分区过程中存在于各城市系统中TL设计-数据格式需求. doc2.数据仓库准备DWd分层结构表DDL--销售主题域dw分层版-20191119.xlsx包括:维度表、事实表数据字典、更正日志、 字段的ddl语法数据仓库数据字典0802.xlsx是源系统的数据字典3 .检查事实维表的加载策略,更改内容,更改记录4 .局部吉鲁说明. doc5 .脚本规格说明6.

ETL开发模板统一和规范统一事故与周期开发脚本模板统一数据处理修改脚本模板统一APP应用开发脚本模板统一Sql文件脚本模板统一ETL逻辑设计文档模板规范类型转换规范脚本模板

完成ETL流程设计

(设计数据合并、转换、清洗和数据调查)输出:

数据丢失异常值检查. xlsx

ETL映射表. xlsx

ETL实现方案. xlsx此表包含

ods层到dwd或中间表的映射

ETL工作者的归属

每个表的清洗集成逻辑都记录在此表的ETL开发主要任务中。

输入基于ETL设计的逻辑开发脚本:

数据仓库数据字典0802.xlsx

ETL映射表. xlsx

ETL实现方案. xlsx

销售主题域DW级版-20191119.xlsx输出:

具备初始化/周期/数据处理/代码表/sql脚本/mapreduceJob/sparkJob ETL测试自动调度系统的配置

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。