大数据的数据仓库分层1 .什么是数据分层? 2 .数据分层的好处通用数据分层设计3 .示例4 .计算引擎和存储系统5 .大数据的基础概念
1 .什么是数据分层?
数据分层是一组高效的数据组织和管理方法,使数据体系更加系统化。
2 .数据分层的好处(1)清晰数据结构
每个数据层都有作用域和作用,使用表时可以更容易地定位和理解。
)2)减少重复开发
通过规范数据分层和开发公共中间层数据,可以减少大量的重复计算。
)3)统一数据口径
通过数据分层,提供统一的数据出口,统一对外输出的数据口径。
)4)复杂问题简单化
把一个复杂的任务分解成多个步骤来完成,每层解决特定的问题。
通用数据分层设计
ODS:存储原始数据
DW:存储数仓中间层数据
APP:为业务定制的APP应用程序数据
3 .示例以下是电子商务网站的数据体系设计,只关注用户访问日志这一部分的数据。
4 .每层使用的计算引擎和存储系统
5 .大数据相关基础概念数据源:业务系统、植入点、爬虫
PG:PostgreSQL,关系数据库
Sqoop:结构化数据(mysql/oracle )和Hadoop (hive )之间进行批量数据迁移的工具
Flume:是一个分布式、可靠、高可用性的大容量日志收集、聚合和传输系统。 支持定制各种数据发送源以在日志系统中收集数据; 提供轻松处理数据并将其写入各种数据接收方(HDFS(HBase ) )的能力。
3358 www.Sina.com/:是基于zookeeper协调的分布式、支持分区、多拷贝的分布式信息系统。
Kafka:流媒体数据流执行引擎。 数据流的分布式计算提供了数据分布、数据通信和容错等功能。
Flink:一个开源分布式分析引擎,提供Hadoop/Spark上面的SQL查询接口和多维分析(OLAP )能力,一直在吃超大规模的数据。 可以在亚秒内查询巨大的Hive表。
3358 www.Sina.com/: elasticssearch是一个可扩展的开源全文搜索分析引擎,可以快速实时存储、检索和分析海量数据。
Kylin:一种分布式系统基础架构,允许用户开发分布式程序,以充分利用集群的强大功能进行快速计算和存储,而无需了解分布式的底层细节。 两个主要核心: HDFSMapReduce
ES一个可扩展、容错、高性能的分布式文件系统,主要负责异步复制、单次写入、多次读取和存储。
Hadoop:分布式计算框架。
HDFS:高速通用的计算引擎,专为大数据处理而设计。
参照博文