怎样做数据分析和对比,七种常见的数据分析法

文章刊登在公众号【数智物语】(ID:decision_engine )上，关注公众号可以跨越所有干货。

自转

作者| Ahong

作为数据分析师，您是否因为缺乏分析思路而受到以下问题的幸福感影响？

1 .一个产品上线，需要监测转化率的效果，既要看整体情况，也要看细分渠道

2 .策划营销活动，预算有限。查看选择哪个目标用户层以及采用哪个方案带来的销售额更高()可以更好地实现KPI )。

3. KPI又出现较大波动，领导打算稍后再问，赶紧分析数据寻找原因；

一个问题是从天上随机落下的食材，分析思考是将这些奇怪形状的食材加工成“看得懂”的美味料理。做饭的话，可以参考的“万金油”的食谱是什么？本篇为你慢慢来。

流程

完成一个任务，通常需要做饭等一系列操作，先觉得什么好吃，再买菜、洗菜、切菜、炒菜。

1.1

操作步骤

行动的步骤是先确定起点、终点(目标)，把起点和终点的距离分成小步骤，知道先做什么，后做什么。

注：图中的小黑点显示了可在此步骤中选择的行动计划

e.g .一种常见的数据分析途径是SAS公司提出的SEMMA范式

1. Sample，数据采样，保证数据的有效性和可靠性；

效度意味着数据的准确性，意味着所选数据与分析目标和业务目标一致；

信度是指数据的稳定性，应保证样本数据具有代表性，且一定周期内无过大波动；

2. Explore、数据特征搜索与预处理、查看e.g .数据分布情况、数据标准化等；

3. Modefy，明确问题、模式选择、方案调整；

4. Model，执行建模方案；

5. Assess，结果评价(准确性、稳定性、是否符合业务预期、效益如何)；

另一个常见的数据分析范式是CRISP-DM，分为六个步骤。

1. 商业理解：确定业务目标、评估现有资源、确定分析目标、制定解决方案；

2. 数据理解：数据收集、搜索分析、数据质量验证；

3. 数据准备：数据筛选、数据清洗、数据整合、变量派生；

4. 建立模型：模型选择、检测设计、模型建立、结果评估；

5. 模型评估：检查分析结果与业务目标匹配程度、1-4步执行过程，确定下一步；

6. 结果部署：规划部署方案、监测和维护方案，输出项目报告，再现项目；

使e.g .报表联机的基本步骤如下：

需求登记--- -方案计划---需求计划期间--- -数据ETL--代码编写--- -数据验证--- -联机报表

1.2

阶段性变化

要连续完成多个步骤，有的是“轻松完成”，有的是“中途放弃”，有的是“善始善终”。

用户将流向产品转换的各个步骤。例如，如果100人参加有9个级别的淘汰游戏，每个级别淘汰10人，整个游戏最终剩下10名赢家。如果将此游戏视为产品，则该产品的全过程转换率为10% (游戏胜利率)。

注：电子商务APP常见转化漏斗

电子商务的一般流程如下：

也可以将上述步骤整理成鱼骨图，每一个大步骤分割出更细致的小步骤；

例如，“支付环节”可以划分为：

确认收货地址---选择优惠---选择支付方式---输入短信验证码---返回支付结果(成功或失败)

e.g .用户运营理念包括：行人——用户——粉丝——员工，首先将身边感兴趣的行人转化为用户，轻度用户是产品用户，中度用户是产品的“dldzs”，重度用户积极

议，在这个转化过程中用户的参与度逐步提高。

1.3

闭环迭代

一般的闭环流程包括3部分：事前方案规划，事中执行监控，事后复盘总结。

e.g. 营销活动

事前：确定目标，选定用户，制定方案，确定检验标准等；

事中：实时数据监控(是否达到预期)，不同方案赛马，备用方案启用等；

事后：对整个流程复盘，总结经验，CSS归类(Continue做先前已验证的正确的事，Stop做错误的事，Start做新的正确的事)

常用的闭环迭代框架是PDCA，通过计划(P)、实施(D)、检查(C)、总结(A)4个步骤，循环迭代，螺旋上升。

另外还要注意，在使用流程化思维时，除了常见的正向思考，也要逆向思考。

分类

互联网时代最核心的经营理念是深耕客群，通过差异化运营提升ARPU值(Average Revenue Per User，每用户平均收入)，而分类无疑是开展这项工作的重要前提。

主要有4种分类方法：

二分法，非此即彼，e.g. 网站新客、老客，贷款审批结果分为通过申请、拒绝申请等；

并列分类，多个分类(子集)构成一个全集，e.g. 用户地域可以按省份划分，按年龄可以将用户分为70后、80后、90后、00后等，女性用户群体可以分为时尚丽人、都市白领、kldbmh等；

等级分类，e.g. 会员等级——铁牌、铜牌、银牌、金牌、钻石、皇冠，城市等级——一线、二线、三线、四线；

矩阵象限，e.g. 波士顿矩阵，RFM象限

注：图片来自网络

分类的规则大致有两类：

按主体分类，

e.g. 按社会关系模型，用户角色可以是父母、文艺的玫瑰、子女、朋友等；

e.g. 按照群体划分，可以分为一般情况和特殊情况、二八原则等；

按属性分类，依据主体(比如用户)的属性进行类别划分。

e.g. 用户画像时可以考虑以下属性：

1. 社会属性：收入水平、学历、职业、婚姻情况等

2. 位置属性：居住地、工作地、从手机端还是PC端登录等

3. 生物属性：年龄、性别、种族等

4. 心理属性：品牌偏好、购买行为、优惠偏好等

对比

“痛苦来自比较之中”(没有比较就没有伤害)，其实幸福也来自比较之中，痛苦还是幸福，取决于选择的参照点是高于还是低于你。

对比就是找一个参照点，来发现两个数据间的差异量Δ大小如何。

对比可以分为两类：横向对比、纵向对比。

3.1

横向对比

和同类(竞品)比较，e.g. 对比不同品牌的女装的销售情况，不同销售渠道(地区)的交易情况；

实验对比，设置实验组和对比组，对比两组或多组之间的差异，以确定人为干预(实验、方案)的效应。

e.g. 比较不同的产品或运营方案的效果差异时，常采用AB Test，需要确保对比的两组或者多组在数量和结构上要具有可比性(e.g. 用户的来源、等级等需要匹配)；

和整体比较，e.g. 华东地区的销售情况和全国总体销售比较；

做组间比较时，一定要确保样本的可比性(无论是在数量级还是在群体结构上)，e.g. 对比两个时间段的交易情况，建议剔除掉大促和节假日(这些交易日的数据波动很大)。

有两类不易察觉的样本错误尤其要提防：

“正直的短靴悖论”，即两个样本单独得到的结论和样本合并后得到的结论相反。

e.g. 如下表所示，单独看APP端和PC端，新客的转化率都是低于老客的，但是，整体新客的转化率却高于老客。

注：以上数据仅作为说明概念使用，不代表真实场景

“幸存者偏差”，即样本已经被容易忽略的因素筛选过。

e.g. 问卷调查中，那些愿意填写问卷的用户本身就是对产品有高认可度；

e.g. 产品漏斗转化流程中，处在不同环节的用户一般不能进行对比

3.2

纵向对比

横向是和其他对象比较，纵向则是和自己的历史数据对比。

常见的纵向对比有同比和环比，对比的周期根据实际情况可以按日、周、月、季、年等。

注：一个常用的多组对比柱状图

对比的时候，除了比较相对量，也要看绝对量，以合理地评估数据差异的大小。

e.g. 0.5%的波动是大还是小，需要找参考点，如果历史波动最高也就0.1%，那么这个波动就很大。

e.g. 公众号关注人数昨日环比增长20%(看着还不错)，实际上才增加4个人，截止前天也就20个人。

关联

看数据指标不要只看一个“点”，还要看一条“线”上的前后连接的环节，进而从“面”或“体”的角度去看整个大环境中都有哪些因素相互作用。

对现象的分析可以参考简单的调节模型：

其中：X是自变量，Y是因变量，M是调节变量。

寻找关联关系时，不仅仅要找出对Y有直接影响的X(一个或者多个)，还要找出影响X对Y作用的调节因素M。

关联也可以分为同时关联和延时关联两类。

4.1

同时关联

即多个因素(X)同时发生作用一起促成了现象(Y)的发生。

e.g. 电商网站销售的变化可能考虑的因素：

用户：用户结构是否发生变化，是否有新的注册渠道，新渠道导流进来的用户质量如何；

商品：品类结构是否有变化，e.g. 随着四季变化，服装类的种类也会发生变化；

产品：多少用户使用旧版本或者新版本，产品某个环节有没有改版，产品的策略(商品推荐策略等)是否有变化；

运营：前期的线上或者线下预热，商城的优惠力度，优惠涉及的人群等；

4.2

延时关联

现象的产生可能存在延迟效应，要考虑当前现象(环节)的前置的“因”和后置的“果”。

e.g. 今天上线的营销方案可能在几天甚至几十天后才会有显著的效应，今天交易量上出现的波动也可能是因为一段时间前产品或者运营策略上有改动。

层级

要有结构化、系统化的思维，对影响因素自上而下的拆解和自下而上的组合。

5.1

自上而下的拆解

可以理解为“分级钻取”，如同金字塔结构一样，先从总体看到二级分支，然后再看更细的分支。

e.g. 支付成功率的影响，可以对新老客、订单来源、支付方式、银行通道一层一层拆解，细化各个分支对整体变化的贡献率；

e.g. 销售额 = 下单人数*客单价 (a)

从登录到下单是层层转化后的，所以

下单人数 = 访客人数*浏览转化率*购物车转化率*支付转化率 (b)

公式(b)代入公式(a)，得到：

销售额 = 访客人数*浏览转化率*购物车转化率*支付转化率*客单价

5.2

自下而上的组合

就是将个体组成群体，将小的指标组合成一个综合指标。

e.g. 用户的标签分为基础标签和复合标签，基础标签就是单个用户属性来定义的(例如性别、婚否等)，复合标签则是考虑多个基础标签的组合(例如，某个典型的用户群体画像是：女性+单身+白领+一线城市)；

e.g. 规划用户标签时，先用头脑风暴想出一批指标，然后进行归类、筛选、组合；

e.g. 风控业务中累计坏账计提的计算，是将不同的逾期资金规定不同的风险计提比例，最后再把所有类别的风险计提资金汇总起来，作为公司所有贷出款项的风险计提资金，从而对公司贷款业务风险进行评估；

举个形象的例子，自上而下好比国家财政拨款，从中央到省会再到各市县区；自下而上则像是国家征税，就是从各市县区、各企业层层汇总，直到报送国库。

优化

分析的最终目标无非两种：寻找解决方案，寻找更好的解决方案。第一步是保证数据的准确性和稳定性，第二步就是优化，提高准确性、提高效率和效益。

优化包含两部分的内容：缩小当前和目标的差距，直到达成并超越目标；在成本或者预算固定的前提下，使收益最大化。

6.1

缩小当前和目标的差距

e.g. 全公司各部门各业务线的同事们都在追逐和超越KPI的路上；

e.g. 机器学习建模时，尝试多种方案，调试各种参数，使模型的精确度逐渐提高

6.2

成本固定，最大化收益

e.g. 对于信用贷款产品而言，如果把“最安全”放在首位，那么极端的方式就是不给任何人发放贷款，这样就不会出现坏账了。正确的信贷模型思维是将坏账控制在业务上可以接受的范围内，并使利息覆盖坏账，进而最大化收益。

任何商业模式都是追逐利益的，首要目标是收益最大化，参考如下公式：

利润 = 收入 - 投入成本 - 风险损失

优化的过程就是寻找利润最大化的过程。

小结：

以上总结了常见的6种数据分析思路，涉及具体的业务场景还要结合业务特点适当变通。精通方法，深入业务，勤于实践，多加总结，最终就能踏上描述-->解释-->预测-->控制，步步高升的数据分析师精进之路。