大数据仓库是基于HIVE构建的数据仓库,分布式文件系统为HDFS,资源管理为Yarn,计算引擎主要由MapReduce/Tez/Spark等组成,层次结构如下
1,http://www.Sina.com/:日志或关系数据库。 通过Flume、Sqoop、Kettle等etl工具导入到HDFS中,并映射到HIVE的数据仓库表。
2,http://www.Sina.com /是数据仓库结构的中央表,包含连接事实和维表的数值度量和键。 事实数据表包含描述业务中特定事件(如产品销售)的数据。
3,http://www.Sina.com /是维属性的集合。 是分析问题的窗口。 是人们观察数据的特定角度,是思考问题时的属性,属性的集合构成一个维度。 数据库结构中的星型结构。 数据存储在结构中心的一个事实数据表中,其他维数据存储在维表中。 每个维表都与事实数据表直接相关,通常通过键联接到事实数据表。 星型架构是数据仓库相对流动的架构。
星型模式的基本思想是保留多维数据集的多维功能,这也提高了小型数据存储的灵活性。
说明:
1 )、事实表是你应该关注的内容
2 )维度表是指你观察其事务的角度,从哪个角度观察这个内容?
例如,一个地区的商品销售额是从地区的角度观察商品销售额的。 事实表是销售量表,维度表是地区表
4、数据来源层:主题(Subject )是一个高层次整合、分类、分析和利用企业信息系统中数据的抽象概念,每个主题基本上对应一个宏观分析领域。 在逻辑意义上,它是涉及企业某个宏观分析领域的分析对象。 例如,“销售分析”是一个分析领域,因此该数据仓库APP应用的主题是“销售分析”。
面向主题的数据组织方式是指高层次、分析对象数据的完整且一致的描述,可以描绘出各分析对象所涉及的企业的各数据以及数据之间的联系。 高级别是指相对于面向APP应用的数据组织方式,不同主题的数据组织方式具有更高的数据抽象水平。 为了适应传统数据库面向APP应用的数据组织特点,数据仓库中的数据是面向主题的组织。 例如,一家生产企业的数据仓库组织的主题包括产品订单分析和货物发货分析。 按APP顺序组织可能是财务子系统、销售子系统、供应子系统、人力资源子系统和生产调度子系统。
5,http://www.Sina.com/:将原子粒度事实表及维度表汇总,以提高查询性能为目的,形成周报、月报、季报、年报等高粒度表。
6,http://www.Sina.com /
对于APP应用层,该数据是为完全满足具体分析需要而构建的数据,也是星形结构的数据。 APP应用层可以提取用于前端APP应用的数据,并由关系数据库组成。
7、【补充】事实表
存储接口端提供的原始数据的数据库层。 此层的表结构与源数据基本匹配,存储数据的时间取决于数据量和项目情况。 如果数据量大,则可以只存储最近的数据并备份历史数据。 此层的目的是中继和备份数据。维度表
临时测试数据表(临时表)或包含中间结果集的表。