写在前面:
PDF :概率密度函数。 连续型随机变量的概率密度函数是描述该随机变量的输出值位于某个决定的可能点附近的可能性的函数,以连续型为对象。 PMF :概率质量函数、概率质量函数是离散随机变量的每个特定取值处的概率,针对离散类型。 CDF :累积分布函数也称为分布函数,是概率密度函数的积分,可以完整地描述随机变量x的概率分布。 一、离散型分布1 .伯努利分布
也称为0-1分布或两点分布。 也就是说,实验只有两种结果p和1-p。 是典型的抛硬币
期望和分散如下:
p(x=1)=PP(x=0)=1-pE(x ) x )=PD (x ) )=p(1-p ) from 2.二元分布(n重伯努利分布) ) )。
有以下假设。
包括n个相同实验在内每个实验只有两种结果,“成功”或“失败”、“成功”的概率p在每个实验中相同,“失败”的概率1-p实验是相互独立的期望和方差:
p(x=k )=p的k次*(1-p )的n-k次发生k次即可,无论何时发生,当e(x )=NPD ) ) NP(1-p )为n=1时,二元分布为伯努利分布3 .超几何分布
定义有n个产品,其中有m个不良品,现在从其中取n个,n个中包含的不良品数量x是随机变量,概率函数为
e(x )=1/pD(x ) x )=1-p/p侧
4 .泊松分布
在指定时间内或指定面积或体积内发生事件的次数的分布,例如某个设备在某个月发生故障的次数、每单位时间到达柜台的人数等。 假设平均每小时有20人到达柜台。 也就是说,描述某个时间发生某事的具体概率。 概率质量函数如下所示。
e(x )=lamda (x )=lamda
p=0.25、n20、np=5时,用泊松分布近似代替二元分布比较有效,且与指数分布也有一定关联
二、连续型分布1 .均匀分布
也称为矩阵分布,是对称概率分布,相同长度间隔下的分布概率相等。 通常由轴上的最大值a和最小值b决定,标记为u(a,b ),概率密度函数为f (x )=1/B- a (在a~b之间取值) ) ) ) )。
e(x )=(ab )/2d ) x )=(B-a ) **2/12 2.指数分布
表示事件时间间隔的概率,例如1小时到达柜台的人的时间间隔t,可以根据泊松分布导出。 例如,如果下一个人到达的时间间隔是t,也就是说,t时间没有人来,可以用泊松分布的n=0导出。 在间隔t内发生时,为1-以上的概率。 概率密度函数是
e(x )=1/lamdaD(x ) x )=1/lamda**2
3 .正态分布
最重要的常见分布是,根据中心极限定理,从均值为miu、方差为sigma**2的任一总体中提取样本量为n的样本,当n足够大时,样本均值的采样分布为均值为miu、方差为sigma**2/n的正态分布用于各种估计和检查
e(x )=miuD(x ) x )=sigma**2 4 .对数正态分布
一组正态分布的数据可以通过取对数置换为对称的正态分布
5 .韦伯分布
在对可靠性数据或生存数据建模时,韦伯分布是最常用的。 例如,在有效寿命期间有多少次保修请求,有两个参数。 其中,k是形状参数,另一个是比例参数。 k=1时为指数分布
关于k的说明:
k1表示失败率随时间降低,有缺陷的项目往往提前失败。 由于去除了有缺陷的,失败率随时间降低的k=1表示失败率不随时间变化,可能是外部随机原因造成的k1表示失败率随时间增加,常见于“老化”过程和部件中,随着k的增大
fzddr儿童平均体重为3.5kg,标准偏差为0.76kg。 如何检测所有明显不同于普通婴儿的儿童,体重2.6公斤的儿童?
H0 :我觉得这个宝宝很健康
H1 :我觉得这个宝宝不健康
要计算感兴趣值的CDF,请按如下方式计算:
from为0.118,即健康宝宝体重至少比平均体重轻0.9kg的概率为11.8%,而正态分布,因此健康宝宝体重至少比平均体重重0.9kg的概率也为11.8%。 也就是说,如果该婴儿健康,体重至少偏离平均值0.9kg的概率为2*11.8%=23.6%,也就是说,在原假设为真的前提下,极端情况的概率为0.23,结果不明显,健康
下一章还将详细说明假设验证
三.来自正态分布的连续型分布:正态分布总体中样本均值的样本分布。 对样本数少、且真正的平均/标准偏差未知时的卡方分布进行说明。 描述正态分布变异的程度f分布。 为了比较两组正态分布的变异程度,分别介绍如下
1.t分布
与正态分布相似的对称分布,比正态分布平坦且分散,在处理异常值时更鲁棒,取决于自由度,随着自由度的增大,t分布趋于正态分布。 应用于在一个小样本总体中标准偏差未知的平均值的估计/检验或两个正规总体的平均值差的估计/检验
,见下节分析2.卡方分布
如果一个随机变量X服从标准正态分布,那么X**2服从卡方分布,常用于正态总体方差的估计和检验
:一个药品订单规定发货的药片的标准差为0.05,检验下面一组药片是否符合标准?
n=13,随机样本的重量为3.04、2.94、3.01、3.00、2.94、2.91、3.02、3.04、3.09、2.95、2.99、3.10、3.02
import结果是0.19,也就是说若这批药来自标准差为0.05的一个分布,那么得到一个大于或等于我们观察到的卡方值的可能性为0.19,远远高于显著性水平,所以不能拒绝原假设,也就是这批药符合期望的标准差。
3.F分布
最常见运用在方差分析中,可以用来判断两个组别是否具有相同的方差
:比较两组数据的准确度(由变异程度决定),数据一:[20.7,20.3,20.3,20.3,20.7,19.9,19.9,19.9,20.3,20.3,19.7,20.3]
数据二:[19.7,19.4,20.1,18.6,18.8,20.2,18.7,19]
import下一章讲参数检验