2019独角兽企业重金招聘Python工程师标准>>>
回归分析主要解决的问题a、从一组样本数据出发,确定变量之间的数学关系式 b、关系式的可信度进行检验,并找出哪些变量的影响是显著,哪些是不显著的 c、利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度
回归模型
自变量与因变量
被预测或被解释的变量,称为因变量,用y表示; 用来预测或解释因变量的一个或者多个变量称为自变量,用x表示;
一元回归、一元线性回归 一元回归:一个自变量 一元线性回归:线性关系
回归模型
描述因变量 y 如何依赖与自变量 x 和 误差项 的方程称为回归模型
+ 反应了由于X的变化而引起的Y的线性变化, ,称为模型的参数
被称为误差项的随机变量,反映了除 X 和 y 之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性 ,
上述为理论回归模型,其部分假定
b、重复抽样中,自变量 x 的取值是固定的,即假定 x 是非随机的
上述两个假定下,对于任意个给定的 x 值,y 的取值都对应着一个分布,因此, E(y) = + 代表一条直线,但由于单个数据点是从 y 的分布中抽出来的,可能不在这条直线上,因此,必须包含一个误差 来描述模型的数据点
c、误差项 是一个期望值为0 的随机变量,即 E() = 0。,上述式子中,由于,都为常数,所以有 E() = ,E() = 。
因此对于一个给定的 x 值,y 的期望值为 E(y) = + 。这实际上等于假定模型的形式为一条直线
d、对于所有的 x 的值, 的方差 都相同,这以为这对应一个特定 x值,y 的方差也都是等于
e、误差项 服从正态分布的随机变量,且独立,即 ~N(0,)
1、独立性意味着一个特定的 x 值,它所对应的 与其他 x 值所对应的 不相关 ,所因此,对于一个特定的 x 值,他所对应的 y 值与其他 x 所对应的 y 值也不相关
2、这表明, 在 x 取某个确定值的情况下,y 的变化由误差项 的方差 来决定
3、当 较小时,y 的观测值非常靠近直线
当 较大时,y 的观测值偏离直线
由于 是常数,y 的取值不受 x 取值的影响
4、由于自变量 x 在数据收集前假设是固定的,因此,对于任何一个给定的 x 值, y 都 服从期望值为 + 、方差为 的正态分布,对于不同的 x 具有相同的方差
关于回归模型的假定,如下图
回归方程
根据回归模型的假定, 的期望值等于0 ,因此E(y) = +
描述因变量 y 的期望值如何依赖与自变量 x 的方程称为回归方程 ,一元线性回归方程
E(y) = +
a、图示是一条直线,也称为直线回归方程
b、 :y轴上的截距,x = 0时 y 的期望值, 斜率: x 每变动一个单位, y 的平均变动值为
估计的回归方程
用样本统计量 代替回归返程中的未知参数, , 这时就得到了估计的回归方程
= +
:截距, 斜率,表示 x 每变动一个单位时, y 的平均变动值
转载于:https://my.oschina.net/u/1785519/blog/1488536