本文是《10周入门数据分析》系列的第七篇。
想知道学习路线,可以先看学习计划| 10周数据分析入门。
是统计数据分析的基石。学习统计后,你会发现很多时候分析是不可靠的。比如很多人喜欢用平均数来分析一件事情的结果,但这往往是粗糙的,不准确的。如果我们研究统计学,那么我们可以从越来越多的科学角度来看待数据。
大多数数据分析将使用以下统计知识,这些知识可以集中在学习上:
基本统计:平均值、中位数、众数、方差、标准差、百分位数等
概率分布:几何分布、二项式分布、泊松分布、正态分布等
一般样本:了解基本概念和抽样的概念。
置信区间和假设检验:如何进行验证分析
相关和回归分析:一般数据分析的基本模型
通过基础统计,可以进行更多样化的可视化,实现更精细的数据分析。这时候还需要多学习Excel函数实现基础计算,或者python和r中一些相应的可视化方法。
有了总体和样本的概念,你就知道如何面对大规模数据进行抽样分析了。
也可以应用假设检验的方法,更准确地检验一些感性假设。
利用回归分析的方法,可以对未来的一些数据和缺失数据做一个基本的预测。
了解了统计学的原理后,靠工具可能实现不了,需要在网上找相关的实现方法或者看书。首先推荐一个很简单的:thddg- 《统计学从数据到结论》。也可以看到《商务与经济统计》,结合业务更容易理解。
另外,请掌握一些主流算法的原理,如线性回归、逻辑回归、决策树、神经网络、相关分析、聚类、协同过滤、随机森林等。再往前一点,还可以掌握文本分析、深度学习、图像识别等相关算法。关于这些算法,你不仅需要知道它们的原理,还需要知道各个行业的一些应用场景。如果这个阶段不只是需要工作,那就不是重点。
这篇文章可以看作是知识点的总结,不做详细的开发,让大家知道什么是统计大块,每个类别都是用于什么样的分析场景。接下来的几篇文章会结合实际案例详细讲描述性统计、概率分布等。
知识总结:
1.集中趋势
2.变化性
标准化
4.正态分布
5.抽样分布
6.估计
7.假设检验
8.检验
一、集中趋势
1.方式
频率最高的数字;
2.中位数
对样本值进行排序,并将其分布在中间值;
当样本总数为奇数时,中位数为(n ^ 1)/第2个值;
当样本总数为偶数时,中位数为第n/2和(第n/2)个第1值的平均值;
3.平均的
所有数字的总和除以样本数;
目前我们接触最多的概念应该是平均值,但有时候,平均值会受到一些极端值出现的很大影响。举个小例子,你们班有20个学生,都是5000元左右的收入,但是有一个学生创业成功,年收入1亿元。这个时候,你们班学生收入的“平均值”是500万元,这也是一个很好的解释。每年各地的平均收入数据都在公布,朋友们都在呼吁祖国慢下来。那是因为每个人的收入都是平均的。这个时候,你们班学生的平均收入是500万元。
第二,可变性
1.四分位数
说到“中值”,把样本分成两部分,然后求出这两部分各自的“中值”,再把样本分成四部分,其中1/4的值记为Q1,2/4的值记为Q2,3/4的值记为Q3。
2.四分之一距离IQR=Q3-Q1
3.极端值
低于Q1-1.5(IQR)或高于Q3 1.5(IQR);
对于异常值,我们应该在数据处理中消除它们。
4.差异
5.平方偏差
方差的算术平方根
6.贝塞尔校正:校正样本方差。
在实际计算方差时,分母应该是n-1,而不是样本数n,原因是比如在高斯分布中,我们取一部分样本,用样本的方差来表示满足高斯分布的大样本数据集的方差。由于样本主要落在x=u的中心值附近,如果用下面的公式计算样本的方差,则预测的方差必须小于大数据集的方差(因为从高斯分布边缘提取的数据也很少)。为了弥补这一缺陷,我们将公式由n改为n-1,从而提高了方差值。这种方法称为贝塞尔修正系数。
三.正常化
1.标准分
给定分数与平均值的标准差是多少?
标准分数是看某一分数在分布中的相对位置的方法。
标准分数能够真实反映分数距离平均值的相对标准距离。
https://p6.toutiaoimg.com/origin/pgc-image/f5a7c4479e7f489f933a728487e48a67?from=pc">四、正态分布
1.定义:随机变量X服从一个数学期望为μ,方差为σ⊃2;的正态分布,记为N(μ,σ⊃2;)
随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内;
有95.4%的概率位于距离均值μ有2个标准差σ内;
有99.7%的概率位于距离均值μ有3个标准差σ内;
五、抽样分布
1.中心极限定理
设从均值为μ,方差为σ⊃2;的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布
2.抽样分布
设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的1/n。
举个例子:
48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。
六、估计
1. 误差界限
2. 置信度
We are some % sure the true population parameter falls within a specific range
我们有百分之多少确信总体中的值落在一个特定范围内;
一般情况下,取95%的置信度就可以;
3. 置信区间
七、假设检验
1.问题:什么是显著性水平?
显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.
2. 如何选择备选检验和零假设?
一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;
同时将研究者想收集证据证明其不正确的假设作为原假设H0
八、T检验
1. 主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。
流程如下:
是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著;
一般检验水准α取0.05即可;
计算检验统计量的方法根据样本形式不同;
2. 独立样本T检验:
现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。
问题:为什么T检验查表时候要n-1?
样本均值替代总体均值损失了一个自由度
3. 配对样本t检验
分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里出现了配对
样本误差(Standard Error)
4. Pooled variance 合并方差
当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差
不要被公式吓到,他的本质是两个样本方差加权平均
5. Cohen’s d
效应量(effect size):提示组间真正的差异占统计学差异的比例,值越大,组间差异越可靠。
此文是《10周入门数据分析》系列的第7篇。
想了解学习路线,可以先行阅读“ 学习计划 | 10周入门数据分析
公众号上已更新到第13篇,欢迎前往关注~