首页 > 编程知识 正文

谈谈描述性分析思维

时间:2023-05-05 12:41:15 阅读:92866 作者:1735

编辑指南:构建说明性分析思维有助于建立数据分析思维。 具体来说,说明性分析思维有哪些思维维度和一般的数据指标? 该怎么应用呢? 在这篇文章中,作者就说明性分析思考阐述了他的见解和想法,让我们来看看吧。

一、前言

以前整理过“数据思维”的概念、培养锻炼以及应用的一些相关内容,这里分析一下说明性分析思维、二八与危机的西牛思维、PEST分析思维、生命周期分析思维、竞争对手分析思维、结构化分析思维等数据分析

本文从数据分析入门级思维——描述性分析思维入手进行梳理,有助于树立数据分析思维的意识。

在进行数据分析之前,首先需要知道数据。 收集一系列复杂的数据信息,统计整理相关数据。

在这种情况下,光是“让别人看看”数据的话,就会显得呆呆的。 就像有些人不知道如何通过展示分析结果和数据来证明自己的分析一样,就像有些人不知道经验丰富的人应该如何活跃一样。

如果想要了解数据的概要,或者想印证自己的分析,可以利用描述性分析思维,了解数据信息的整体情况,从而观察数据的特征和异常问题等。

描述性分析思维即统计描述整个调查所有变量的相关数据,主要包括数据频数分析、集中趋势分析、离散程度分析、分布和一些基本的可视化统计图形和清晰的文字描述。

二、描述性分析思维有哪些指标?

所谓“指标”,是帮助我们使用多个指标深入解读数据的想法,不能只凭对数据的感觉和敏感来分析数据,这种主观性太强了。 因此,让我们来看看记述性分析思维中有哪些指标。

的描述性统计分析指标有平均值、四分位数、方差、标准偏差、中位数、众数等。 通过这些指标的计算和图形的视觉化展示,来发现这些数据就是这样的情况吧!

1. 平均值

的平均值,顾名思义,通过计算数据的平均值是多少,就可以知道数据的平均水平是多少。

式:平均值=(数值X1 X2 X3……)/N )几项、数值的数量) ) )。

优点:计算简单,可以知道平均水平如何。 缺点:数据值差异较大时,会出现所提示的平均水平结果不客观的现象,从而发生平均陷阱,有可能导致误解。 例如,我们感觉自己的收入水平降低了城市的人均工资水平。

2. 众数

最频值(Mode )在统计分布上是具有明显集中倾向点的数值,表示数据的一般水平)最频值可以不存在也可以有多个)。

3. 中位数

中间值显示了数据中心位置的数字特征。 大致比中央值大或小的数据个数是数据整体的一半。 在对称分布的数据中,平均值对于接近中央值的偏置分布的数据,平均值和中央值不同。 中位数的另一个显着特征不受异常值的影响,具有鲁棒性,因此是数据分析中相当重要的统计量。

4. 方差、标准差、标准分

方差:样本中各数据与样本平均数之差的平方和的平均称为样本方差; 样本方差的算术平方根称为样本标准偏差。 样本方差和样本标准差都是测量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动越大。

标准点也称为z分数,是具有相等单位的数量。 这是原分数与团体平均之差除以标准偏差的商数,以标准偏差为单位来衡量原分数距离平均分数有多少标准偏差以上,或平均以下的标准偏差有多少个。 这是抽象的值,不受原测量单位的影响,可以进一步接受统计处理。

如果用式表示,则z=(x-) /; 在这里,z是标准分数; x是某个具体的分数,是平均,是标准偏差。

标准分表示【某数值】与平均值有多少标准偏差。 在质量管理中,经常听说6西格玛管理是标准点的典型应用。 该标准偏差通常以每100万次采样数的缺陷率进行测量。

一个标准差相当于每1万个抽样有69万个不合格,每本书每页有170个错别字。 3个标准差相当于每100万件样本中6.7万件不合格,一本书每页有1.5个错别字。 6个标准差是指每100万件样本中3.4件不合格,相当于整个小型图书馆所有藏书中的1个错别字。

5. 四分位数

四分位数是指将所有数值按照从小到大的顺序排列并四等分,位于3个分割点的位置的数值,分割后用5个数值记述数据的整体分布。

下界:最小值,即第0%位置的数值下四分位数: Q1,即第25%位置的数值; 中位数: Q2,即第50%位置的数值; 上四分位数: Q3,即第75%位置的数值; 上界:最大值,即第100%位置的数值。

QLC?from=pc">优点:可以用来对比不同类别数据的整体情况,还可以识别出可能的异常值。缺点:无法反映数据的波动大小。

6. 极差

极差=最大值-最小值,是描述数据分散程度的量,极差描述了数据的范围,但无法描述其分布状态。且对异常值敏感,异常值的出现使得数据集的极差有很强的误导性。

7. 偏度

偏度用来评估一组数据的分布呈先的对称程度,即以正态分布为标准描述数据对称性的指标。

8. 峰度

峰度用来评估一组数据的分布形状的高低程度,即描述正态分布中曲线峰顶尖哨程度的指标。然而:

均值、中位数、众数体现了数据的集中趋势。极差、方差、标准差体现了数据的离散程度。偏度、峰度体现了数据的分布形状。

以上是常用的描述性分析的指标,还有一些其他的指标,如绝对数、相对数:倍数、成数、百分数等,这里就不一一介绍了。

三、描述性分析思维维度有哪些?

其实,在日常的数据分析中我们经常使用一些特征值,尤其是我们做周报或者月报的分析时,这些描述性的统计分析特征值对于我们有一定的帮助,描述性统计分析是进行正确的统计推断的先决条件。可通过数据的集中趋势、离散程度、分布类型和特点等维度进行初步分析。

1. 集中趋势的描述性统计

均值:描述一组数据的平均水平,是集中趋势中波动最小、最可靠的指标,但是均值容易受到极端值(极小值或极大值)的影响。中位数:最适合的表征集中趋势的指标。众数:常用于描述定性数据的集中趋势,不受极端值的影响。

2. 离散程度的描述性统计

最大值和最小值:是一组数据中的最大观测值和最小观测值。极差:一般情况下,极差越大,离散程度越大,其值容易受到极端值的影响。方差和标准差:是描述一组数据离散程度的最常用、最适用的指标,值越大,表明数据的离散程度越大。

3. 分布形态的描述性统计

偏度:当偏度=0时,分布是对称的;当偏度>0时,分布呈正偏态;当偏度<0时,分布呈负偏态。峰度:当峰度=0时,分布和正态分布基本一直;当峰度>0时,分布形态高狭;当峰度<0时,分布形态低阔。

4. 频率统计分析

频数分布分析(又称频率分析)主要通过频数分布表、条形图和直方图、百分位值等来描述数据的分布特征。在做频数分布分析时,通常按照定性数据(即分类的类别),统计各个分类的频数,计算各个分类所占的百分比,进而得到频率分布表,最后根据频率分布表来绘制频率分布图。

5. 按照时间递增的趋势统计

特殊情况下,当X轴是日期数据,Y轴是统计量(比如均值、总数量)时,可以绘制出统计量按照时间递增的趋势图,从图中可以看到统计量按照时间增加的趋势(无变化、递增或递减)和周期性。

例如,下图的X轴是日期,Y轴的统计量是总数量,两条折线分别是新增企业数和新增用户数据

四、描述性分析思维运用基本思路?

那么,接下来,我们来梳理一下描述性分析思维运用的基本思路?

首先,要描述目前的数据表现的现状是什么,根据分析目的,提取指标数据的具体数值:如数量、平均数、极差、标准差、方差、极值。

其次,描述分布规律:如均匀分布、正态分布、集中趋势、长尾分布。

然后,根据以往的数据的或者是之前制定的标准,制定参考标准。

最后,综合现状和标准,输出有价值的结论,并进行可视化:如柱状图、条形图、散点图、饼状图。

只有业务概况+数据指标+标准(可视化)才能得出一个“是什么”的结论。

业务概况+数据指标+标准(可视化)=结论的分析流程,非常简单,不过标准如何去制定?那又是需要我们深思的问题了。

例如,一个门店购买商品的数量的平均值是多少?四分位数是多少?标准差是多少?标准分是多少?两个数据的变异系数是多少?

一个门店销量每日增长趋势怎么样?客单价的分布如何?成什么分布?门店总销量是多少?哪个商品卖得最好?细分的品类中卖的最好的是什么?

例如面包中,是有奶油面包的好,还是无脂面包=卖的好?什么时间用户购买最集中,一天中哪个时间段购买最集中,卖得最好?

五、总结

描述性分析思维,即解决业务现状“是什么”的问题,这是最基础的、最直观简洁的数据思维。但是由于简单,对多元变量的关系难以描述。现实生活中,自变量通常是多元的:决定体重不仅有身高,还有饮食习惯,肥胖基因等等因素。

但可以通过一些高级的数据处理手段,对多元变量进行处理,例如特征工程中,可以使用互信息方法来选择多个对因变量有较强相关性的自变量作为特征,还可以使用主成分分析法来消除一些冗余的自变量来降低运算复杂度。

在之后我们会提到拆解思维、对比思维等数据分析思维中都会涉及。总之,以后运用数据分析思维做得多了,做数据分析输出的成果就更严谨,有依据,有说服力,不在停留“取数”阶段了。

#专栏作家#

木兮擎天@,微信公众号:木木自由,人人都是产品经理专栏作家。多年互联网数据运营经验,涉猎运营领域较广,关注于运营、数据分析的实战案例与经验以及方法论的总结,探索运营与数据的神奇奥秘!

本文原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。