一、以实际应用为导向
最后,我们先来看看平均值假设验证能解决什么问题。
例子1:
上司:“这个月生产技术改变后,生产的产品合格了吗?
已知累计的使用时间服从正态分布,已知使用平均为1000小时,标准偏差为100小时。 现随机抽取30件,测定使用时间平均值为950小时。 那么,在显著的0.05级上判断这些产品是否合格。
例子2:
业主问:本月网站新版促销页面上线后,每日用户活动数量有明显提高吗?
已知日平均活跃用户数服从正态分布,以前的日平均活跃用户数平均为750。 目前,提取了15天的数据,测得的日平均活跃用户数平均值为780,标准差为50。 那么,在显著的0.05级中,判断每天的活动用户数是否明显增加。
二、基本概念
什么是假设检验
假设从整体参数(平均、比例等)的具体数值开始叙述。 例如,在前面的例子中,我们认为新版促销页面上线后的效果比以前好。 (用户每日活动量有显著变化)
假设检验是首先对总体参数进行假设,然后利用样本信息判断假设是否成立的过程。 例如,判断上面的假设信息是我应该接受还是拒绝。
原假设与备择假设
验证对象假设也称原假设(零假设),一般表示为H0,原假设一般表示两者无显著性差异。
与原来的假说进行比较的东西被称为预选假说,表示为H1。 一般比较时,主要有相等、大、小。
显著性水平
显著性水平是概率值,如果原假设为真,则拒绝原假设的概率用表示,始终取0.05、0.01、0.10的值。
检验统计量
决定原假设和预备假设的某个样本统计量称为检验统计量。
根据给定的显著性水平,调查得到了相应的阈值。 将检测统计量值与该显著性水平阈值进行比较,得出是否拒绝原假设的结论。
http://www.Sina.com/http://www.Sina.com /
是概率值,如果原始假设为真,则p值是大于或小于采样分布中的样本统计的概率。
左检查时,p值为曲线上检查统计量以下部分的面积。
右检定时,p值为曲线以上检定统计量以上部分的面积。
P
(I类错误)弃真)原假设为真,但我们否定它。
类错误(取假) )原假设是假的,但我们并没有否认这一点。
值
左侧检查:假设关键词有以上/以上等词时,为左侧检查。
右侧检查:假设关键词有以下/不高等词语时,作为右侧检查。
双侧检查:两端均计算显著水平概率的检查。 例如,有不等于语言的假设。
I类错误,II类错误
单侧检验、双侧检验
提出原假设和初步假设,从整个研究中提取随机样本
构造检验统计量根据显著性水平确定拒绝域临界值计算检验统计量与临界值进行比较(2)关于均值的检验
Z检验
一般用于大样本(样本容量大于30)的平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均值的差异是否显著。
Z统计量的计算公式:
T检验
主要用于小样本(样本容量小于30),总体标准差未知的正态分布平均值差异性检验。T检验是用t分布理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
t统计量的计算公式:
四、应用例子的解答
例子1:
(1)提出原假设与备择假设
原假设
备则假设
(2)总体中出抽取一个随机样本
如例子所述,随机抽取30件,测得使用时间平均值为950小时
(3)构造检验统计量
(4)显著性水平确定拒绝域临界值
根据显著水平0.05,查得临界值为-1.645
(5)检验统计量与临界值进行比较
因此拒绝假设,选择备则假设,所以这批产品不及格。
例子2:
(1)提出原假设与备择假设
原假设
备则假设
(2)总体中出抽取一个随机样本
如例子所述,随机抽取了15天数据,测得日均活跃用户数均值为780,标准差为50。
(3)构造检验统计量
(4)显著性水平确定拒绝域临界值
根据显著水平0.05,查得临界值为1.753
(5)检验统计量与临界值进行比较
因此拒绝假设,选择备则假设,所以日均活跃用户数有显著提升。