首页 > 编程知识 正文

大数据发展简史(数据库系统发展历史)

时间:2023-05-04 22:14:10 阅读:95960 作者:619

编者按:本文是Matsuko(工整店员)关于大数据平台发展历史系列文章的第一篇(共四篇)。本系列以独特的视角比较了非互联网和互联网时代以及传统和非传统行业。它是数据平台发展的记忆。从数据平台、数据架构演进、模型等用户角度阐述了非互联网、互联网。

前言,这个数据平台的发展历史只是我自己从传统数据平台到互联网数据平台经历的简单记忆。本文引用了历史项目平台的规划框架,在此不再赘述。

我从2000年开始接触数据仓库,大概在2008年开始进入互联网行业。当时我在互联网上接触到的数据平台,和传统的第三代数据架构还是有很大的相似之处。随着互联网的快速发展,每一次技术变革都带来了技术、架构和业务的逐渐变化。如今,互联网和非互联网的数据平台架构大不相同。

回顾早期的企业环境,企业的生产和服务是一个长周期,这导致了业务数据的粗粒度模式。随着互联网从早期PC终端向“胯下式”移动终端的快速渗透,对用户的需求和服务周期将逐渐缩短,业务层次的爆发、数据类型的多样化和存储将对应技术、架构和业务的快速发展,相应的数据沉淀和积累也将呈指数级暴涨。

从“数据仓库”一词产生之初到现在的“大数据”,知识和架构模式发生了太多的演变和变化,比如“数据仓库、海量数据、大数据”等等。(注:数据仓库一般指长期积累数据,只需处理大量数据请求中的一小部分的系统。数据仓库不等于“海量数据”。相反,它是它的一个子集。海量数据还包括:通过大量连接每秒提供数百万服务请求的系统。大数据是基于海量数据和复杂类型数据的大分析、高带宽和大内容)。

数据仓库在国外的发展历史已经很多年了,98-99年左右进入中国,到现在已经发展了十年左右。如今,尤其是非互联网和互联网企业领域,数据平台存在显著差异。本文将谈谈数据平台在非互联网时代和互联网时代的发展。

很多从传统企业数据平台切换到互联网的学生,是否觉得非互联网企业和互联网企业的数据平台针对的是不同的用户群体?这两类数据平台的建设和用户有变化吗?数据模型设计有什么区别?

我们先来看看用户群体的差异。下面,我们组织两个图表来说明用户组的区别。

一、用户群体

非互联网数据平台用户:

(单击放大图像)

老板的需求和企业的运营主要依靠报表的数据分析师和商业智能团队来分析和发掘。支撑的人是ETL开发工程师、数据模型建模、数据架构师和报表设计师,这些角色也是数据平台的数据构建者和使用者。数据平台的技术框架和工具主要包括技术架构师、JAVA开发等。用户面临结构化的生产系统数据源。

互联网数据平台用户:

(单击放大图像)

互联网企业的员工比非互联网企业的员工更年轻,受教育程度和对电脑的焦虑程度明显低于传统企业,也遇到了其他原因,导致数据平台和非互联网数据平台面临的用户群体存在差异。互联网数据平台的用户和建设者是来自各方的人,数据平台是由技术和数据产品推动的。分析师参与数据平台直接建设的比例有所增加。原来的数据仓库开发和模型架构师的功能也从搭建平台变成了服务和咨询。用户面临着多样化的数据源,如日志、生产数据库数据、视频、音频等非结构化数据。

从这个用户群体来看,非互联网和互联网数据平台的用户差异非常明显。互联网数据平台中的很多理论和术语都是从传统数据平台传过来的。本文将分别阐述非互联网和互联网数据平台的区别。

(单击放大图像)

00-1010从数据仓库发展到现在,基本上可以分为五个时代,四种架构(可以详细的回顾一下数据仓库的发展历史,这里只做科普介绍)。

1991年以前的企业范围集成,1991年以后的企业数据集成,EDW时代,1994年到1996年的数据集市,1996年到1997年的两种架构之争,1998年到2001年的合并时代,五次划分都是以重要事件或代表为标志的,例如,在企业数据集成的EDW时代,其重要代表就是比尔恩门的代表性数据仓库,更重要的是,他提出了如何构建数据。他追随自我。

上而下的建设原则,这个导致后来数据仓库在千禧年传到中国后的几年内,几个大实施厂商都是遵守该原则的实施方法,后来的数据仓库之路等各种专业论坛上针对数据仓库 ODS-EDW 的结构讨论 (备注:坛子里有个叫吴君,他发表了不少这方面的文章)。

在国内项目实施中 IBM、Terdata、埃森哲、菲奈特 (被东南收购,东南后来某些原因而倒闭) 等很多专业厂商在实施中对 ODS 层、EDW 层都赋予了各种不同的功能与含义 (备注:在后边的架构案例解)。

在数据集市年代其代表人物是 Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在数据仓库的建设上 Ralph kilmball 提出的是自下而上的建设方法,刚好与 Bill Innmon 的建设方法相反,这两种架构方式各有千秋,所以就进入了争吵时代。

我整理了一个表格是这两位大师优缺点:

(点击放大图像)

随着数据仓库的不断实践与迭代发展,从争吵期进入到了合并的时代,其实争吵的结果要麽一方妥协,要麽新的结论出现,果然 Bill inmon 与 Ralph kilmball 的争吵没有结论,干脆提出一种新的架构包含对方,也就是后来 Bill Inmon 提出的 CIF(corporation information factory) 架构模式、这也算是数据仓库的第三代架构,其架构特点是把整个架构划分为不同层次,把每一层次的定义与功能都详细的描述下来,从 04 年后国内的很多数据仓库架构、甚至互联网刚开始搞数据平台数据仓库架构模式也是这一种。

(点击放大图像)

数据仓库第一代架构

(开发时间 2001-2002 年)

海尔集团的一个 BI 项目,架构的 ETL 使用的是 微软的数据抽取加工工具 DTS,老人使用过微软的 DTS 知道有哪些弊端,后便给出了几个 DTS 的截图。

功能:进销存分析、闭环控制分析、工贸分析等

硬件环境:

业务系统数据库:DB2 for Windows,SQL SERVER2000,ORACLE8I中央数据库服务器:4*EXON,2G,4*80GSCSIOLAP 服务器:2*PIV1GHZ,2G,2*40GSCSI开发环境:VISUAL BASIC,ASP,SQL SERVER 2000

(点击放大图像)

(点击放大图像)

(点击放大图像)

(点击放大图像)

数据仓库第二代架构

(点击放大图像)

这是上海通用汽车的一个数据平台,别看复杂,严格意义上来讲这是一套 EDW 的架构、在 EDS 数据仓库中采用的是准三范式的建模方式去构建的、大约涉及到十几种数据源,建模中按照某一条主线把数据都集成起来

这个数据仓库平台计划三年的时间构建完毕,第一阶段计划构建统统一生性周期视图、客户统一视图的数据,完成对数据质量的摸底与部分实施为业务分析与信息共享提供基础平台。第二阶段是完成主要业务数据集成与视图统一,初步实现企业绩效管理。第三阶段全面完善企业级数据仓库,实现核心业务的数据统一。

在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市 DM(非挖掘集市)中,完成对业务的支撑。

数据的 ETL 采用 datastage 工具开发(备注 大约 06 年我写了国内最早的版本 datastage 指南 大约 190 页叫“datastage 学习版文档”。后来没再坚持下来)。

数据集市架构

(点击放大图像)

(点击放大图像)

这个是国内某银行的一套数据集市,这是一个典型数据集市的架构模式、面向客户经理部门的考虑分析。

数据仓库混合性架构 (Cif)

(点击放大图像)

(点击放大图像)

这是太平洋保险的数据平台,目前为止我认识的很多人都在该项目中呆过,当然是保险类的项目。

回过头来看该平台架构显然是一个混合型的数据仓库架构。它有混合数据仓库的经典结构,每一个层次功能定义的非常明确。

ODS 层 支撑单一的客户视图,是一个偏操作行的做唯一客户识别的,同时提供高可用户性客户主信息查询。

EDW 层基于 IIW(IBM 的通用模型去整理与实施)最细粒度、原子、含历史的数据,也支持查询。

各业务数据集市 (DM) 面向详细业务,采用雪花 / 星型模型去做设计的支撑 OLAP、Report、仪表盘等数据展现方式。

新一代架构 OPDM 操作型数据集市 (仓库)

OPDM 大约是在 2011 年提出来的,严格上来说,OPDM 操作型数据集市(仓库)是实时数据仓库的一种,他更多的是面向操作型数据而非历史数据查询与分析。

在这里很多人会问到什么是操作型数据?首先来看操作型数据支持的企业日常运作的比如财务系统、Crm 系统、营销系统生产系统,通过某一种机制实时的把这些数据在各孤岛数据按照业务的某个层次有机的自动化整合在一起,提供业务监控与指导。在 2016 年的今天看来 OPDM 在互联网很多企业已经实现了,但是在当时的技术上还是稍微困难点的。

下篇,我们将讲述非互联网数据平台的核心数据模型。敬请关注;

原文地址:https://www.infoq.cn/article/the-development-history-of-big-data-platform

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。