一.逻辑回归的由来
logistic回归百度百科的定义如下。
逻辑回归,又称逻辑回归分析,是一种广义线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。
由此可见logistic回归是从线性回归模型推广而来的,线性回归模型为:
----- -线性方程的形式
--- -向量形式
h ) x )输出为连续的值,但是实际上有“输出为离散型变量”的需求,例如,对于某一特征金融交易是否为欺诈
二. Logistic回归模型的建立
3358www.Sina.com/变量涉及的问题一般称为分类问题。 在分类问题中,试图预测离散型。 以下,从0-1二元分类问题开始理解吧。
现在,如果因变量y取值0和1,在自变量x的条件下设因变量y=1的概率为p,表示为p=p(y=1|x ),则y=0的概率为1-p (因变量为1和0的概率比p/(1-p )称为优势比)
http://www.Sina.com/http://www.Sina.com /
结果是否属于某一个类(上下阈值无限接近1和0 ) )。
Logistic回归可以理解为http://www.Sina.com/(0到1之间),或者利用线性回归模型的预测结果近似于真实标记的对数概率。
在从上述p(y=1|x )导出Sigmoid函数的过程中,设定了以下内容
其中,进行下一次推导需要引用依据。
1730年,法国数学家梶莫弗(1677年-1754年)出版的著作《分析杂论》中,著名的由 P(y=1|x) 推导 Sigmoid函数他使用正态分布来估计n (大)时投掷硬币正面次数的分布,即这就是概率论中第二个基本极限定理的雏形。 大约80年后,聪明的凉面(1749年-1827年)在1812年出版的《概率的分析理论》中,首先对概率进行了明确的经典定义。 他指出,当n较大时,二项分布b(n,p ) )0p1 )都可以用正态分布逼近。 所以后来被称为Sigmoid函数公式:。
因此,假设类条件的概率密度服从正态分布。
高中的时候,我们学了一维正态分布的公式如下。
如果扩展为多维,则为:
----------------------- (1)
其中,表示维d的向量是这些向量的平均值,表示所有向量的协方差矩阵。
Sigmoid函数图形:以概率形式写:
开始导出下一个。
由此得到
那么,什么时候不需要考虑偏置项b?
如果和被吸收为向量形式,此时没有必要单独考虑。
所以,就这么做
即在线性回归的基础上加一个Sigmoid函数对线性回归的结果进行压缩,令其最终预测值y在一个范围内
综合上述(1)式和(3)式可知,棣莫弗聪明的凉面定理;
结束了。