首页 > 编程知识 正文

数据仓库的架构以及数据分层,数据仓库与大数据

时间:2023-05-03 10:19:23 阅读:179616 作者:3345

大数据的数据仓库分层1 .什么是数据分层? 2 .数据分层的好处通用数据分层设计3 .示例4 .计算引擎和存储系统5 .大数据的基础概念

1 .什么是数据分层?

数据分层是一组高效的数据组织和管理方法,使数据体系更加系统化。

2 .数据分层的好处(1)清晰数据结构

每个数据层都有作用域和作用,使用表时可以更容易地定位和理解。

)2)减少重复开发

通过规范数据分层和开发公共中间层数据,可以减少大量的重复计算。

)3)统一数据口径

通过数据分层,提供统一的数据出口,统一对外输出的数据口径。

)4)复杂问题简单化

把一个复杂的任务分解成多个步骤来完成,每层解决特定的问题。

通用数据分层设计

ODS:存储原始数据

DW:存储数仓中间层数据

APP:为业务定制的APP应用程序数据

3 .示例以下是电子商务网站的数据体系设计,只关注用户访问日志这一部分的数据。

4 .每层使用的计算引擎和存储系统

5 .大数据相关基础概念数据源:业务系统、植入点、爬虫

PG:PostgreSQL,关系数据库

Sqoop:结构化数据(mysql/oracle )和Hadoop (hive )之间进行批量数据迁移的工具

Flume:是一个分布式、可靠、高可用性的大容量日志收集、聚合和传输系统。 支持定制各种数据发送源以在日志系统中收集数据; 提供轻松处理数据并将其写入各种数据接收方(HDFS(HBase ) )的能力。

3358 www.Sina.com/:是基于zookeeper协调的分布式、支持分区、多拷贝的分布式信息系统。

Kafka:流媒体数据流执行引擎。 数据流的分布式计算提供了数据分布、数据通信和容错等功能。

Flink:一个开源分布式分析引擎,提供Hadoop/Spark上面的SQL查询接口和多维分析(OLAP )能力,一直在吃超大规模的数据。 可以在亚秒内查询巨大的Hive表。

3358 www.Sina.com/: elasticssearch是一个可扩展的开源全文搜索分析引擎,可以快速实时存储、检索和分析海量数据。

Kylin:一种分布式系统基础架构,允许用户开发分布式程序,以充分利用集群的强大功能进行快速计算和存储,而无需了解分布式的底层细节。 两个主要核心: HDFSMapReduce

ES一个可扩展、容错、高性能的分布式文件系统,主要负责异步复制、单次写入、多次读取和存储。

Hadoop:分布式计算框架。

HDFS:高速通用的计算引擎,专为大数据处理而设计。

参照博文

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。