统计学大数据分析(统计学作业数据分析)

本文是《10周入门数据分析》系列的第七篇。

想知道学习路线，可以先看学习计划| 10周数据分析入门。

是统计数据分析的基石。学习统计后，你会发现很多时候分析是不可靠的。比如很多人喜欢用平均数来分析一件事情的结果，但这往往是粗糙的，不准确的。如果我们研究统计学，那么我们可以从越来越多的科学角度来看待数据。

大多数数据分析将使用以下统计知识，这些知识可以集中在学习上：

基本统计：平均值、中位数、众数、方差、标准差、百分位数等

概率分布：几何分布、二项式分布、泊松分布、正态分布等

一般样本：了解基本概念和抽样的概念。

置信区间和假设检验：如何进行验证分析

相关和回归分析：一般数据分析的基本模型

通过基础统计，可以进行更多样化的可视化，实现更精细的数据分析。这时候还需要多学习Excel函数实现基础计算，或者python和r中一些相应的可视化方法。

有了总体和样本的概念，你就知道如何面对大规模数据进行抽样分析了。

也可以应用假设检验的方法，更准确地检验一些感性假设。

利用回归分析的方法，可以对未来的一些数据和缺失数据做一个基本的预测。

了解了统计学的原理后，靠工具可能实现不了，需要在网上找相关的实现方法或者看书。首先推荐一个很简单的：thddg- 《统计学从数据到结论》。也可以看到《商务与经济统计》，结合业务更容易理解。

另外，请掌握一些主流算法的原理，如线性回归、逻辑回归、决策树、神经网络、相关分析、聚类、协同过滤、随机森林等。再往前一点，还可以掌握文本分析、深度学习、图像识别等相关算法。关于这些算法，你不仅需要知道它们的原理，还需要知道各个行业的一些应用场景。如果这个阶段不只是需要工作，那就不是重点。

这篇文章可以看作是知识点的总结，不做详细的开发，让大家知道什么是统计大块，每个类别都是用于什么样的分析场景。接下来的几篇文章会结合实际案例详细讲描述性统计、概率分布等。

知识总结：

1.集中趋势

2.变化性

标准化

4.正态分布

5.抽样分布

6.估计

7.假设检验

8.检验

一、集中趋势

1.方式

频率最高的数字；

2.中位数

对样本值进行排序，并将其分布在中间值；

当样本总数为奇数时，中位数为(n ^ 1)/第2个值；

当样本总数为偶数时，中位数为第n/2和(第n/2)个第1值的平均值；

3.平均的

所有数字的总和除以样本数；

目前我们接触最多的概念应该是平均值，但有时候，平均值会受到一些极端值出现的很大影响。举个小例子，你们班有20个学生，都是5000元左右的收入，但是有一个学生创业成功，年收入1亿元。这个时候，你们班学生收入的“平均值”是500万元，这也是一个很好的解释。每年各地的平均收入数据都在公布，朋友们都在呼吁祖国慢下来。那是因为每个人的收入都是平均的。这个时候，你们班学生的平均收入是500万元。

第二，可变性

1.四分位数

说到“中值”，把样本分成两部分，然后求出这两部分各自的“中值”，再把样本分成四部分，其中1/4的值记为Q1，2/4的值记为Q2，3/4的值记为Q3。

2.四分之一距离IQR=Q3-Q1

3.极端值

低于Q1-1.5(IQR)或高于Q3 1.5(IQR)；

对于异常值，我们应该在数据处理中消除它们。

4.差异

5.平方偏差

方差的算术平方根

6.贝塞尔校正：校正样本方差。

在实际计算方差时，分母应该是n-1，而不是样本数n，原因是比如在高斯分布中，我们取一部分样本，用样本的方差来表示满足高斯分布的大样本数据集的方差。由于样本主要落在x=u的中心值附近，如果用下面的公式计算样本的方差，则预测的方差必须小于大数据集的方差(因为从高斯分布边缘提取的数据也很少)。为了弥补这一缺陷，我们将公式由n改为n-1，从而提高了方差值。这种方法称为贝塞尔修正系数。

三.正常化

1.标准分

给定分数与平均值的标准差是多少？

标准分数是看某一分数在分布中的相对位置的方法。

标准分数能够真实反映分数距离平均值的相对标准距离。

https://p6.toutiaoimg.com/origin/pgc-image/f5a7c4479e7f489f933a728487e48a67?from=pc">

四、正态分布

1.定义：随机变量X服从一个数学期望为μ，方差为σ⊃2;的正态分布，记为N(μ,σ⊃2;)

随机取一个样本，有68.3%的概率位于距离均值μ有1个标准差σ内；

有95.4%的概率位于距离均值μ有2个标准差σ内；

有99.7%的概率位于距离均值μ有3个标准差σ内；

五、抽样分布

1.中心极限定理

设从均值为μ，方差为σ⊃2;的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ⊃2;/n的正态分布

2.抽样分布

设总体共有N个元素，从中随机抽取一个容量为n的样本，在重置抽样时，共有N·n种抽法，即可以组成N·n不同的样本，在不重复抽样时，共有N·n个可能的样本。每一个样本都可以计算出一个均值，这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来，因此，样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明：在重置抽样时，样本均值的方差为总体方差的1/n。

举个例子：

48盆MM豆，计算出每盆有几个蓝色的MM豆，48个数据构成了总体样本。然后随机选择五盆，计算五盆中含有蓝色MM豆的平均数，然后反复进行了50次。这就是n为5的样本均值抽样。