数据仓库的概念、特征和组合数据仓库的配置数据仓库数据库(核心、数据信息存储位置);
数据提取工具;
元数据:技术元数据(开发与管理)和业务元数据(单位业务);
访问工具;
数据集市(数据集市) (特定应用目的);
数据仓库管理; 信息发布系统
数据提取工具可从各种存储环境中提取数据,进行必要的转换和组织,并将其存储在数据仓库中。 访问各种数据存储方法是数据提取工具的关键。 数据转换通常包括以下内容:
删除决策分析中无意义的数据计算转换为统一的数据名称和定义的统计和派生数据;填充缺少的数据; 统一不同的数据定义方式
数据集市(Data Mart) ,也叫数据市场。
数据集市是企业级数据仓库的子集,是出于特定APP应用目的而独立于数据仓库的数据的一部分,也称为部门数据或主题数据。 在分析、内容、表达以及易用性方面满足专业用户群体的特殊需求。
在数据仓库实施过程中,通常从一个数据集市着手,用几个数据集市构成完整的数据仓库。
数据仓库体系结构的传统:
传统思洛存储器中常见的技术体系结构是节点之间的非共享体系结构(Share Nothing ),用于群集独立数据库节点并提高整体处理性能,每个节点都有独立的磁盘存储系统和内存各数据节点通过专用网络或商用通用网络相互连接,相互协作计算,作为整体提供服务; 在设计上优先考虑c (一贯性),其次考虑a (可用性),尽量改善p )分区的容错性)
CAP理论参考: https://www.cn blogs.com/mingo run/p/11025538.html
分布式体系结构
大数据常见的技术体系结构,也称为Hadoop体系结构/批处理体系结构。 每个节点实现站点自治(可以单独执行本地APP应用),并且数据在集群中全局透明地共享; 每个节点都通过局域网或广域网连接,节点间通信开销大,运算时致力于减少数据移动,优先考虑的是分区容错(p ),其次是a )可用性),最后
从源位置提取(提取)、变换(变换)和加载(加载) ETL - Extract-Transform-Load数据并将其发送到目标位置的过程
作为构建数据仓库的一个重要环节,用户从数据源中提取所需数据,经过数据清洗,最终按照预定义的数据仓库模型,将数据加载到数据仓库中。
ETL规则的设计和实施约占整个数据仓库构建工作量的60%~80%
由数据提取(Extraction )提取数据源可以分为结构化数据、非结构化数据、半结构化数据
结构化数据一般采用JDBC、数据库记录方式,|非|半结构化数据监听文件更改
提取方式数据提取方式有全量同步、增量同步两种方式
全量同步提取所有数据,通常用于初始化数据加载
差分同步方式检测数据的变动,提取变动的数据,通常用于数据的更新
数据转换数据转换经历两个阶段:数据清洗和转换
-数据清洗主要是对出现重复、二义、不完整、违反业务或逻辑规则等问题的数据进行统一处理
-数据转换主要是对数据进行标准化处理,进行字段、数据类型、数据定义的转换
结构化数据在转换过程中的逻辑很简单,|非半结构化数据的转换很复杂
数据加载(Loading )将最后处理的数据导入到相应的目标源
ETL工具结构化数据ETL工具Sqoop
Kettle
数据统计
信息载体
Kafka
非|半结构化数据ETL工具Flume
日志状态
运用数据层(ODS )的数据与原业务数据一致,可以增加用于数据管理的字段
的历史数据是只读的,用于查询业务系统
业务系统修改历史数据后,将UPDATE_type字段更新为update,并重新添加到ODS
数据明细层(DWD )数据明细层ODS层的数据清洗、标准化、降维(时间、分类、地区) )。
数据仍然满足3NF模型,为分析运算做准备
数据合计层(DWS )数据合计层的数据是将数据详细层的数据按分析主题进行计算合计,并存储容易分析的宽表
存储模型不是3NF,而是注重数据聚合、复杂查询、维度模型等处理性能优异的数仓模型
数据APP应用层(ADS )数据APP应用层也称为数据集市
保存数据分析结果,为不同的业务场景提供接口,减轻数据仓库的负担
-数据仓库擅长数据分析,直接开放业务查询界面会加重负担
下一篇:数据仓库和数据挖掘3
文献参考[0]爱玩的夕阳主编.数据仓库与数据挖掘(第二版) .清华大学出版社,2019
[1]高松鼠着,数据仓库与数据挖掘教程,清华大学出版社,2006
[2] xlmdst编辑.数据仓库原理与实践,人民邮电出版社,2003年。
[3]壮观发夹着数据仓库技术与实现,电子工业出版社,2002.6。
[4] [加]韩家炜,[加]康柏,范明等翻译,数据挖掘概念与技术,机械工业出版社,2005。
[5] lmddb,hsjdqd着,数据挖掘原理与技术,电子工业出版社,2003。