统计学系列主要是对统计学知识进行梳理以及对学习过程的分享,以期提升对统计学相关知识体系化认知水平。本文是该系列的第一篇,主要内容包括统计学基础知识和对概率分布的介绍。
文章目录 基础知识概念释义数据描述 概率分布两个概念二项分布泊松分布大数定律正态分布
基础知识 概念释义
统计学是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据数据,以便给出正确消息的科学。随着大数据(Big Data)时代来临,统计的面貌也逐渐改变,与信息、计算等领域密切结合,是数据科学(Data Science)中的重要主轴之一。
譬如自一组数据中,可以摘要并且描述这份数据的集中和离散情形,这个用法称作为描述统计学。另外,观察者以数据的形态,创建出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称做推论统计学。这两种用法都可以被称作为应用统计学。数理统计学则是讨论背后的理论基础的学科。
–维基百科
统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。
统计学主要又分为描述统计学和推断统计学。给定一组数据,统计学可以摘要并且描述这份数据,这个用法称作为描述统计学。另外,观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称做推论统计学。这两种用法都可以被称作为应用统计学。另外也有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。
–智库百科
比较以上两家百科内容的异同,我们来总结归纳下统计学的特点:
按操作流程来看,统计学包括观察、收集、整理、归纳、分析和预测六个步骤是数据科学的重要组成部分,广泛应用于各种科学,为相关决策提供依据和参考。分为应用统计学和数理统计学。前者又分为描述统计学和推论统计学,主要研究统计学的实际应用价值,后者是专门研究统计学背后的理论基础。 数据描述数据描述通俗来讲,就是我们平常经常接触到的计数、总和、平均值、中位数、众数、方差、标准差以及极大极小值这些概念的综合表述。让我们通过一个实例来复习下。
import pandas as pdfrom pandas import Series, DataFramedf1 = DataFrame({'data1': range(5)}, index=['a', 'b', 'c', 'b', 'e'])print(df1)print('-------------------------')print(df1.describe())output:
data1a 0b 1c 2b 3e 4------------------------- data1count 5.000000mean 2.000000std 1.581139min 0.00000025% 1.00000050% 2.00000075% 3.000000max 4.000000我们设置了一个数据集data1,data1包括0-5之间5个整个(不包含5)并以小写字母a-e作为索引。
可以看到虚线以下部分是对data1的数据描述,依次表示计数、平均数、方差、极小值、四分之一位数、中位数、四分之三位数以及最大值。
在实际业务中,我们通过数据描述以便对数据总体形成一种探索性的概貌认识,进而指导下一步特征选取和数据建模的相关操作。
下面是对概率分布相关知识的介绍,通常我们研究概率分布主要是研究各种分布的公式、均值、方差、分布图以及常用实例。
两个概念数据类型,即随机变量有两种,第一种是离散数据,比如统计每次抛硬币的结果,要么正要么反,其统计数据间存在明显间隔;第二种是连续数据,比如时间,时间之间可以无限分割,1分与2分中间存在无限可能的时间。
数据分布,即数据在统计图中的形状。
以上两者的结合就是概率分布,可以表示为概率分布=数据类型+数据分布。在统计图中一般横轴是数据的值,纵轴则表示对应数据值的概率。
常见离散分布的一种,表示n个独立的是/非实验中成功次数的概率分布,表示公式如下:
P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k)=C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k
公式中n为实验总次数,k是成功的次数,p是成功概率, C n k C_n^k Cnk表示在n次中出现k次有多少种可能。
最常见的二项分布就是投硬币问题了,投n次硬币,正面朝上次数就满足该分布。下面我们使用计算机模拟的方法,产生10000个符合(n,p)的二项分布随机数,相当于进行10000次实验,每次实验投掷了n枚硬币,正面朝上的硬币数就是所产生的随机数。
如上图所示,投10枚硬币,如果正面或反面朝上的概率相同,即p=0.5, 那么出现正面次数的分布符合上图所示的二项分布。该分布左右对称,最有可能的情况是正面出现5次。
你可能会想,假如这枚硬币是坏的,它正面朝上的概率是0.2,会怎么样呢?我们来看看。
可以看到,当p=0.2时,两项分布不再对称,这时正面最有可能出现的次数不再是5次,而成了2次。
也是常见离散分布的一种,用于描述单位时间内随机事件发生次数的概率分布。这里要注意二项分布与泊松分布的区别。前者是对n次实验中事件k次出现是/非概率的描述,比如抛10次硬币出现5次正面的概率;后者是对单位时间内事件发生k次概率的描述,比如定点观察1小时内通过8辆车的概率,或者一个月内某台机器损坏10次的概率。
泊松分布公式表达如下:
P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , … P(X=k)=frac{lambda^k}{k!}e^{-lambda},k=0,1,… P(X=k)=k!λke−λ,k=0,1,…
公式中k表示统计次数,λ(有时也写为μ)是平均值,k表示发生次数,e是自然常数。
假设通过一定时间的观察,我们知道某个路口每小时平均有8辆车通过,这是一个典型的泊松分布实例,我们通过Python进行统计模拟来看看在统计图它具体是如何呈现的。
我们可以看到,假设将1小时平均分成10000等份进行观测,峰端表示该路口每小时通过8辆车的概率是最高的,概率值约为14%,出现10辆车的概率在10%左右
通俗理解,试验次数越多,事件分布的概率就越趋于稳定。
还是拿抛硬币举例。假设对抛10000次硬币的结果进行观察,前10次的观察结果,出现5次是正面的概率很有可能不是50%,它可能是20%,甚至100%也是有可能的。但是随着实验次数的增加,你会发现出现正面的概率会越来越接近50%,反面同理。换句话说,大数定律就是描述相当多次重复试验结果的规律。我们知道,规律都是相对稳定的,通过发现这些规律继而为我们所用,这是人类主观能动性的表现。
正态分布正态分布可以说是我们日常生活中接触频率非常高的一种统计分布。在现实世界中,有诸多事物呈现出正态分布的概率分布特征,比如身高、体重、班里的成绩、财富分布等等。其公式表示如下:
f ( x ) = 1 2 π σ e ( x − μ ) 2 2 σ 2 f(x)=frac{1}{sqrt{2pi}sigma}e^frac{(x-mu)^2}{2sigma^2} f(x)=2π σ1e2σ2(x−μ)2
公式中μ表示均值,σ表示标准差,π是圆周率,e是自然常数。
下面来绘制均值为0,标准差为1的标准正态分布,因为其形状恰似一口倒扣的钟,因此也被称为钟形曲线。
最后有个知识点需要特别强调下,这个知识点非常实用,但要掌握它并不难。
正态分布的经验法则,即68-95-99.7。经验规则是统计规律,指出了在正态分布,几乎所有数据都将落在均值的三倍标准差内。所述经验规则表明,68%的数据将分布在的第一个标准偏差之内,95%将落在第二个标准差之内,和99.7%将落在均值的前三个标准偏差之内。
举例说明下,某班期末考试语文平均成绩是80分,标准差是5分。根据实际经验成绩分布具有明显的正态分布特征,那么通过经验法则我们可以迅速估算出,成绩在75-85分之间的学生占比为68%,85分以下的占比为84%(68%+(1-68%)/2)。