数据仓库的架构以及数据分层,数据仓库与大数据

大数据的数据仓库分层1 .什么是数据分层？ 2 .数据分层的好处通用数据分层设计3 .示例4 .计算引擎和存储系统5 .大数据的基础概念

1 .什么是数据分层？

数据分层是一组高效的数据组织和管理方法，使数据体系更加系统化。

2 .数据分层的好处(1)清晰数据结构

每个数据层都有作用域和作用，使用表时可以更容易地定位和理解。

)2)减少重复开发

通过规范数据分层和开发公共中间层数据，可以减少大量的重复计算。

)3)统一数据口径

通过数据分层，提供统一的数据出口，统一对外输出的数据口径。

)4)复杂问题简单化

把一个复杂的任务分解成多个步骤来完成，每层解决特定的问题。

通用数据分层设计

ODS:存储原始数据

DW:存储数仓中间层数据

APP:为业务定制的APP应用程序数据

3 .示例以下是电子商务网站的数据体系设计，只关注用户访问日志这一部分的数据。

4 .每层使用的计算引擎和存储系统

5 .大数据相关基础概念数据源:业务系统、植入点、爬虫

PG:PostgreSQL，关系数据库

Sqoop:结构化数据(mysql/oracle )和Hadoop (hive )之间进行批量数据迁移的工具

Flume:是一个分布式、可靠、高可用性的大容量日志收集、聚合和传输系统。支持定制各种数据发送源以在日志系统中收集数据；提供轻松处理数据并将其写入各种数据接收方(HDFS(HBase ) )的能力。

3358 www.Sina.com/:是基于zookeeper协调的分布式、支持分区、多拷贝的分布式信息系统。

Kafka:流媒体数据流执行引擎。数据流的分布式计算提供了数据分布、数据通信和容错等功能。

Flink:一个开源分布式分析引擎，提供Hadoop/Spark上面的SQL查询接口和多维分析(OLAP )能力，一直在吃超大规模的数据。可以在亚秒内查询巨大的Hive表。

3358 www.Sina.com/: elasticssearch是一个可扩展的开源全文搜索分析引擎，可以快速实时存储、检索和分析海量数据。

Kylin:一种分布式系统基础架构，允许用户开发分布式程序，以充分利用集群的强大功能进行快速计算和存储，而无需了解分布式的底层细节。两个主要核心： HDFSMapReduce

ES一个可扩展、容错、高性能的分布式文件系统，主要负责异步复制、单次写入、多次读取和存储。

Hadoop:分布式计算框架。

HDFS:高速通用的计算引擎，专为大数据处理而设计。

参照博文