里德：企业每天生产很多数据。这些数据如果不被分析，就无法在业务、运营等方面产生价值。大数据平台的诞生是为了满足企业对数据的各种要求。如何构建大数据平台，取决于企业的数据化程度和面临的数据问题。作者以在线教育为例，从0到1分析如何构建大数据平台并与你共享。

第一篇文章，按照惯例先做自我介绍。我现在在在线教育公司担任大数据营销产品的负责人。在某种邂逅中，我同时负责了数据产品线和市场营销CRM产品线。因此，给了我更多的机会去思考如何将数据和营销业务深入融合，将大数据的势能赋予营销平台，实现业务精细化、运营和数据驱动。

接下来，我们将通过一系列文章系统化地阐述大数据营销平台在在线教育商业场景中的实战。文章可能包括大数据平台的构建、用户图像服务体系、CRM线索动态评价模型和分配算法、数据产品实施推广方案、客户数据中心(CDP )等多个方向。

本论文将说明如何从0到1构建在线教育商业场景中的大数据平台。

一、企业数据问题诊断

产品为了满足需求，需要构建大数据平台吗？建立什么样的大数据平台？取决于企业的数据化程度和面临的数据问题。因此，在构建大数据平台之前，需要进行充分的调查，找出问题后再对症下药。有关评估企业数据化程度的方法，请参考下图所示的数据管理能力成熟度模型(DMM )。

通过前期的调查和分析，我公司当时处于L2等级，面临的主要数据问题如下。

1 )分散数据源

没有不利于多个数据源之间关联分析的数据资产价值进一步挖掘的数据孤岛严重统一的数据平台，数据资源无法集中沉淀，数据无法有效支持业务2 )数据指标不统一

各业务部门的正确性、权威性受到质疑，需要标准化公司各业务部门KPI评价指标的统计口径3 )数据分析效率低

各业务部门占数据分析工作的一部分，对数据的需求往往从原始数据到数据分析师的支持不够，存在形式不整齐的数据分析工具4 )数据管理问题

二、大数据平台业务架构及Road Map

前一部分全面诊断了企业内部的数据问题，分析了问题。下面是解决这些问题的体系结构和路线图。

1. 数据服务体系蓝图

从业务的角度给出了以下数据服务体系的蓝图。数据服务体系的规划需要满足三点。数据服务体系需要覆盖完整的公司业务，贯穿业务的各个阶段，伴随着企业的发展。

在这个数据服务体系中，处于中心环节的是数据整体建模和数据资产管理，也就是我们熟知的统一化的数仓建设。结合在线教育工作的特点，数仓建设需要满足三个核心数据体系建设。

用户数据体系：用户分析APP、用户标签、用户行为数据、用户基本信息主数据等；营销数据体系：营销分析APP营销、营销层次标签、渠道特征数据、收益转换相关主数据等；学习数据体系：学习分析APP交流、学习喜好标签、学习行为数据、学习素材基础数据等。

2. 数据仓库架构

数据仓库分层采用行业通用的分层方案，包括ODS、DWD、DWS和ADS各层，如下图所示。

1 ) ODS层

数据同步：将结构化数据的增量或总量与数据仓库同步；结构化：非结构化(日志)结构化处理并存储在数据仓库中；累计历史记录、清洗：根据数据业务的需要和审计的要求保存历史记录数据、数据清洗； 2 ) CDM层

相关数据和相似数据的组合：采用详细宽度表，复用相关计算，减少数据扫描。公共指标统一加工：基于OneData体系构建命名规范、口径一致和算法统一的统计指标；创建逻辑聚合的宽表。建立一致的维度：建立一致的数据分析维度表，降低数据计算口径不一致的风险。 3 ) ADS层

个性化指标的加工：基于非共性、复杂性(指数型、比型、排名型等)应用的数据组装)大幅度表市场、横表纵表、趋势指标列。

3. 数据处理流程架构

数据处理过程主要包括源数据的同步清洗、数据处理加工、模型运算和数据应用。根据在线教育公司的业务特点，源数据主要包括渠道数据、用户数据、交易数据、营销过程数据、学习数据、外部第三方数据等。

模型引擎有离线计算引擎和实时计算引擎两种，算法(或规则)的引入、模型的训练和在线化，以及CRM系统中多算法线索的实时在数据聚合、加工生产、应用的整个过程中，数据的准确定、完整性、一致性直接影响着业务对数据系统的可靠性，因此全生命周期的数据治理不容忽视。

/origin/pgc-image/SNjKR5D7ABrNx4?from=pc">

4. 从0~1构建大数据平台的Road Map

笔者结合自身在推进大数据平台建设过程中的经验，给出以下路线图供大家参考。

三、数据建模及设计规范

1. 数据模型选型及举例

维度建模常见的模型有星型模型、雪花模型和星座模型三种，数据仓库设计一般采用星型模型。

星型模型是一种多维的数据关系，它由一个事实表（Fact Table）和一组维表（Dimension Table）组成。每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实（Fact），它们一般都是数值或其他可以进行计算的数据。

事实表：表示对分析主题所属类型的描述。比如“昨天早上张三在环球网校花费1000元购买了一个一建零基础畅学班课程”。那么以购买为主题进行分析，可从这段信息中提取三个维度：时间维度(昨天早上)，地点维度(环球网校), 商品维度(一建零基础畅学班课程)。通常来说维度表信息比较固定，且数据量小。

维度表：表示对分析主题的度量。比如上面那个例子中，1000元就是事实信息。事实表包含了与各维度表相关联的外码，并通过JOIN方式与维度表关联。事实表的度量通常是数值类型，且记会不断增加，表规模迅速增长录数。

2. 数仓表设计规范

1）表命名规范

数仓各层表命名规范如下图所示。

2）字段级规范

新增指标的命名参考已有字段命名方式，避免出现同一个字段，10个人有10个命名方法。

字段分类包括：明细，维度，指标，时间，代码，标志位，命名规范如下：

id结尾表示编号，部分维度编号对应含义需关联数仓相应维度表获取含义；name结尾表示名称，多与id对应，解释其含义，独立的以name结尾的字段；code结尾表示代码字段，对应含义部分可在文档直接查看，部分需关联数仓代码表获取；time结尾表示时间字段，格式为yyyy-mm-dd hh:mi:ss，从源系统获取，不作处理；money结尾表示金额，都为系统相应交易金额；is_开头表示标志字段，此字段只有0,1，含义：1是，0否；除以上规范字段，其他字段根据中文含义对应生成英文字段，多为一些属性字段，意义不大。

四、大数据平台技术架构及模块简介

在大数据平台的建设过程中，笔者和公司大数据架构师共同研究探讨后给出的技术架构如下图所示。

1）安全模块

作为数据平台来讲，保障数据安全始终是第一要素。安全体系的建立主要包含以下几个方面：

数据安全规范、安全等级制定用户系统基础组件层权限管理服务层权限管理用户认证秘钥管理流程审批数据加密脱敏审计

2）监控模块

数据安全之外，服务的稳定性算是平台的第二级指标。好的监控体系可以帮助预测风险定位问题。例如：

提前预判磁盘容量定位内存、CPU资源问题发现异常任务节点宕机等问题查看该各服务负载，评估资源

3）存储模块

存储模块属于基础组件模块，主要采用hadoop生态系统的相关组件。面向不同的应用场景选择一种组件，例如：

hive：离线数仓HBase：KV存储，可用于高度聚合后的固定指标，应对有较高并发请求的场景Druid：面向OLAP场景，能够提供亚秒级、较高请求量且需要钻取能力的OLAP功能Impala：在数仓数据基础上提供更高效的查询分析能力，适合即席查询场景，但是并不能处理更高的请求量。

4）计算模块

Yarn做统一资源管理，Spark或者Flink都可以作为统一流、批处理框架。或者阶段性允许两者并存。

5）管理模块

数据治理：数仓管理数据的主要平台，包括：

任务管理：

离线任务管理、调度：

包含管道任务、SQL任务、Shell任务等形态，数仓场景中SQL任务占整体任务的绝大多数需要基于SQL自动生成任务之间的依赖关系，并且按照任务之间的依赖关系和优先级调度任务

流式任务管理：

流式任务发布、监控、重启等操作

五、写在最后

致此，在线教育大数据营销平台实践第一篇文章已经结束，下篇文章笔者会阐述在大数据平台建设的初期，如何将数据仓库和神策分析系统（sa）相结合来快速满足运营人员对数据分析的需求，开启数据化运营战略落地的序幕。

本文由 @Tigerhu 原创发布于人人都是产品经理，未经作者许可，禁止转载。

题图来自Unsplash，基于CC0协议。

培训大数据开发课程(大数据理论基础与应用实战)