首页 > 编程知识 正文

数据中台是(),数据中台怎么理解

时间:2023-05-05 04:04:59 阅读:158622 作者:4272

数据中台最早由阿里提出,但真正点燃是在2018年,可以感受到业界的报道关于数据中台的情况在增加。 许多互联网、非互联网公司开始建设数据中心。

为什么很多公司开始建设数据中心? 数据中台文章很多,但千人眼中有千个数据中台,到底什么是数据中台? 中台包括什么?

从2017年开始,当网络经过严格筛选并有一定数量的数据时,我们开始了建设我们数据中心的计划。 目前,我们已经完成了数据中心体系的构建。 我们将根据我们建设数据中心的经验和方法来解决上述问题。

为什么大家开始建设数据中台?

从2018年开始,朋友圈里说数据中台的文章逐渐多了起来。 当然,拿着手机看世界并不一定看到真实的世界。 我也和各行业几大公司的首席信息官进行了交流,发现很多行业的大公司都开始组建大数据团队,建设数据中心。

结合文章和沟通中得到的信息,我切身感受到了宏观经济对技术的影响。 从2018年开始经济下滑,生意不好做,粗放经营已经不行了,越来越多的企业希望通过数据驱动进行精细化运营和数据化转型。

如上图所示,企业需要数字化转型,需要很多接触点才能与用户/客户取得联系,很多企业需要建立自己的公众号、小程序(每个小程序),甚至是APP。

我们需要搜索一下,让用户更容易找到我们的商品/服务。 如果用户想更多地浏览/使用我们的商品/服务,我们需要推荐。 为了维持用户/客户的生命周期,根据生命周期进行不同的营销活动,需要CRM。 我们需要吸引更多的新用户,需要发布广告,需要建设DMP以更有效地发布。 当我们的生意做大了,我们需要对抗黑产(羊毛党),让我们的优惠能为真正的用户所享受。 我们需要风控。 这都需要基础的大数据支持。

企业要精细化运营,就必须不断提高运营的频率和粒度,如下图所示。 我们需要将运营节奏提升到周级、天级甚至实时。 我们需要随时随地了解我们的企业经营状况,不断对我们的业务进行更加细致、细致的粒度分析,以便迅速做出业务决策。 我们必须能够迅速构建大量的BI报告。 在一些重要节点(大促进)上,必须盯着数据的大屏幕。 有能力的话,还可以建设场景化的数据产品来辅助业务决策。 这都需要基础的大数据支持。

要想快速利用底层大数据支持,实现数据变革、精细化运营的高频迭代,数据中心必须提供强有力的支持。

这里也请注意。 如果需要大规模数据APP (搜索/建议/BI报告.),则需要构建数据中心。 因为建设数据中台的投入很大。

比如,我家人吃饭的时候,我自己买菜,在自己的厨房里用普通的厨具自己做就好了。 富士康要想数万人、几十万人吃饭,就需要建设食材加工配送中心(模拟数据中台)。 本质上是“需求规模大幅变化,解决方案质量发生变化”。

所以我们看到的基本上是大公司在建设数据中心。 虽然你们现在可能不适合建设数据中心,但数据中心的思想可供大家参考。

总之,当企业需要数据化变革、精细化运营,甚至出现大规模数据应用的需要时,就需要建设数据中心。

什么是数据中台?

这是千人千面的问题。 我们的定义是:“数据中心是一组高质量、高效地推动数据前端的数据系统和数据服务的组合。”

由于规范最终落地系统和服务,定义中不包含规范部分。

数据中心的核心作用是使数据前端高效地为业务提供价值。 要了解数据中心,首先要了解数据前端。 上述搜索、推荐、BI报告、数据大屏幕等都是数据前端。

通过以下网络查看精心选择的数据体系图,可以更清楚地了解数据中心的定位:

中台下层是数据平台,数据平台主要解决与业务无关的问题,主要是大数据的存储和计算问题。

数据中心高层为数据前端,主要包括BI报告、数据产品、业务系统。

数据中心首先让分析师以BI报告的形式推进业务的精细化运营。

如下图所示,根据几仓库半成品的数据,分析师通过精心选择使用几敏捷BI平台,可以根据业务需求快速实现数据可视化和数据分析。

精挑细选的数量现在每周的UV超过800,每天的报告浏览次数超过12w,现在的图表数超过7w。 我觉得对事业部级的BI平台来说是非常好的成绩。 这里特别感谢我们的分析师团队。 正是她们勤奋的工作取得了这样的成绩。

数据中心还通过集成查询服务(主要是集成查询服务和标签服务)帮助开发业务系统,以支持业务流程中的决策。

p>

 

基于数仓里面加工好的数据模型,业务系统开发人员使用统一查询服务获取到的模型数据在业务系统中增加辅助决策功能。

 

比如供应商系统需要对供应商进行评级,供应商评级需要供应商的商品销售数据、评论数据、退货数据、质量数据,供应商采购的交期数据等等。

 

数仓会根据这些数据加工模型,供应商系统可以通过统一查询获取模型在供应商系统中使用。在严选,统一查询服务已经接入了 67 个应用、670 个模型、每天有 300w 的调用。

 

 

我们自己做的数据产品(如下图所示),基本会用到我们数据中台所有的能力支持,包括统一查询服务、标签服务、指标监控服务、数据产出服务等数据服务,也会使用严选有数创建 BI 报表挂载到数据产品中。

 

 

数据中台包含什么?

 

从上文的图中,我们已经初步了解了数据中台包含了哪些系统和服务。概括来说,数据中台包含数仓体系、数据服务集和 BI 平台。

 

1、数仓体系

 

数仓体系是数据中台的核心,数据是新能源,是生产资料。

 

数仓体系包含数仓和一系列的管理系统,用来管理数据,保证数据的完整、一致和准确。

 

数仓体系的构成和关系,如下图所示。数仓是数仓体系的核心,也是整个中台的核心。数仓的开发和存储,主要依赖网易猛犸数据平台。

 

 

夸父 - 埋点管理系统和ssdxn - 数据填报系统从供应侧保障数据的完整性和质量。

 

埋点数据由于来源广 (web 端、ios、android、小程序等)、链路长、格式 (日志的 scheme 约束) 等问题,一直是数据质量的重灾区。

 

夸父 - 埋点管理系统提供了埋点的管理、埋点流程协同和埋点测试,提供了埋点日志的 scheme,保障了埋点数据质量。

 

ssdxn - 数据填报系统提供数据导入数仓及导入时的验证功能,提升数据的完整性。

 

整个电商的业务过程非常多,所有业务过程都线上化的过程非常漫长。当我们下游的数据应用需要某个业务过程的数据,而这个业务过程还没有线上化时,就可以通过ssdxn - 数据填报系统导入数据到数仓,下游就可以使用这份数据。

 

仓颉 - 指标管理系统和燧人 - 指标地图是从需求侧提升数据 (指标) 的一致性。

 

仓颉 - 指标管理系统顾名思义是管理指标定义,在提供指标统一管理的同时,提供了指标定义规范的约束。数据开发可以根据指标定义里的指标口径来进行指标开发。

 

燧人 - 指标地图是提供给业务方查看当前的指标分类与指标定义。

 

数仓开发本身要解决的核心问题是质量和效率 (所有开发也都需要解决),无论是质量和效率都需要好的架构设计。

 

北斗 - 数仓设计管理系统就是来完成数仓设计的。数仓的开发原本总是非常的经验化,很多知识都是存在数据开发的脑子里。我们通过北斗 - 数仓设计管理系统来推行数仓先设计再开发,通过北斗 - 数仓设计管理系统将数仓开发的经验知识化、标准化、工具化。

 

数据质量中心 (如下图所示) 提供全链路的数据保障体系,提供任务监控、数据监控、应用监控、影响范围评估和恢复的支撑。

 

 

2、数据服务集

 

数据服务主要是数据场景下的解决方案的沉淀。数据服务集极大的加速了数据应用开发效率。

 

核心的数据服务是统一查询服务和标签服务,提供指标模型和标签模型对数据应用系统 (业务系统和数据产品) 的统一配送。

 

统一查询服务核心提供表转接口和数据网关的功能。数仓管理的是数据模型表,通过统一查询,数据应用系统就可以通过接口的形式来访问数据模型表。统一查询服务是数据体系和数据应用系统之间的总网关,需要提供模型级限流、熔断等网关功能。

 

 

3、BI平台

 

BI 平台我们用的是严选有数,也就是在网易有数在严选的版本。网易有数是一款敏捷 BI 平台,在设计上通过以终为始的设计理念和类 PPT 操作模式,在保障灵活性的基础上,提供了极大的操作便利。

 

 

在性能方面,我们结合数据产出服务做的基于数据产出的缓存策略极大地提升了报表的性能。图表首访缓存命中率基本稳定在 100%,整体缓存命中率超过 80%。

 

数据中台的内容非常长,本文非常概括地从严选实践介绍了数据中台。

 

总结一下:当企业需要数据化转型、精细化运营,进而产生大规模数据应用需求的时候,就需要建设数据中台。数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合。数据中台包含数仓体系、数据服务集和 BI 平台。

 

作者丨tzdch

来源丨www.infoq.cn/article/Zyq4a*yEI1Uz2iwHFJuF

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。