首页 > 编程知识 正文

常用数据仓库有哪些,数据仓库与数据挖掘教程

时间:2023-05-06 10:00:34 阅读:56234 作者:3276

数据仓库建模方法OLTP系统建模方法在线事务处理(OLTP )系统中,主要操作是随机读写

经常使用关系模型来保证数据一致性和减少冗馀

关系模型使用3正则化规则来减少冗馀

在线分析(OLAP ) OLAP系统,主要操作是复杂的分析查询; 关注数据整合和分析、处理性能

OLAP根据数据的存储方法分为ROLAP、MOLAP和HOLAP

OLAP系统分类rolap (关系OLAP,关系OLAP )—使用关系模型构建,存储系统通常为RDBMS

多维OLAP (多维OLAP ) :通过预先聚合计算并以多维数组的形式存储数据结果,缩短查询分析时间

混合OLAP (混合OLAP,混合体系结构的OLAP ):ROLAP与MOLAP集成; 低层为关的情况

型,高层为多维矩阵型; 查询效率高于ROLAP,低于MOLAP

ROLAP系统的建模方法典型的数据仓库建模方法有ER模型、维模型、数据值、Anchor

在维模型维模型中,表分为维表、事实表,维是事实的组织

维度一般包括分类、时间、地区等

相关概念1. 粒度

“粒度”是多维数据集中数据的详细程度和级别。 数据越详细,粒度越小,级别越低; 数据整合度越高,粒度越高。

例如,地址数据中“北京市”的粒度大于“北京市海淀区”。

2.维(Dimension)

这是人们观察数据的特定角度,是思考问题时的属性。 这些属性的集合构成了维(或维),如时间维和地理维

存储维数据的表称为维表,如表所示是时间维表。 维表中的数据具有包含维属性和维成员的维层次结构。

3.度量或事实

度量(Measure )是多维数据集内的信息单元,也称为数值(Fact )来存储数据。 通常是数值型的数据,具有加法性。

也就是说,DW关心的主题的数值显示

4.多维数据集

数据仓库和OLAP服务基于多维数据模型,将多维数据集视为数据多维数据集(data cube )格式。 多维数据集可以用多维数组表示。 这是维和度量列表的组合。

多维数组可以表示为(维1、维2、…、维n、度量列表)

维度模型的维度模型可分为星形模型、雪花模型和星座模型

创建维模型后,便于对数据进行多维分析

维度表是观察事实度量的视点。 每个度量表都有多个维表,可以在维表级别对度量值进行聚集或细化。 例如,可以按时间维汇总一年的销售额,或按区域维向下钻取每个城市的销售额。 这些都是OLAP的多维分析操作(下一节)。 (可附加性)

星型模型标准的星型模型只有一层维,分析性能最好

雪花模型雪花模型具有多层维度,比较接近三态设计,比较灵活,是星形模型的进一步规范。 消除一部分冗馀。

星座模型星座模型基于多个事实表,事实表之间共享一些维表

它是大型数据仓库的常态,是业务增长的结果,与模型设计无关

例如,对于单个销售主题和商品存储主题,如果时间和位置维相同,则维表可以通用。

OLAP多维分析OLAP的主要操作是复杂的查询,可以将多个表关联起来使用聚合函数,如COUNT、SUM和AVG

OLAP直观地定义了复杂的查询操作,如钻头、切片、切割和旋转

通过钻取不同级别维的分析并改变维的级别来改变分析的粒度

钻头包括向上滚动、向下滚动

累计也称为向上钻取,是指从低级到高级的切换

向下钻取是指从较高级别切换到较低级别

“切片”(Slice )、“剪切”(cut ) Dice选择并分割维称为切片

根据多维度进行的切片称为切割

“旋转”(Pivot )的“维度方向”(divension direction )类似于“翻转”(Roll-up )坐标轴

复杂的查询统计信息是一系列OLAP基本操作的重叠结果。

例如,对于表中的多维数据集,2014年统计“华东”分区总销售量的过程在位置维中从“城市”上滚到“分区”,在年份维中为“年=2014”,在分区维中为“分区=“华东”,如图所示

下一个实验教程:数据仓库和数据挖掘4 (上)

参考资料[0]洋葱主编.数据仓库与数据挖掘(第二版) .清华大学出版社,2019

[1]狂野列车萧,数据仓库与数据挖掘教程,清华大学出版社,2006

[2]聪明的白汤编着.数据仓库原理与实践,人民邮电出版社,2003 .

[3] twdbm着数据仓库技术与实现,电子工业出版社,2002.6。

[4] [加]韩家炜,[加]康柏,范明等翻译,数据挖掘概念与技术,机械工业出版社,2005。

[5]现实树叶,ngdh着,数据挖掘原理与技术,电子工业出版社,2003。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。