一、模型构建的前提或假设
第一个前提(基本假设)是数据服从伯努利分布,即每次只有两种结果,正的概率为p,负的概率为1-p。
第二个前提(基本假设)是假设样本为正的概率是
二、模型如何定义
该模型认为数据的分布服从逻辑斯蒂回归分布。
逻辑斯蒂回归模型学习时,对于给定的训练数据集T = (x1,y1), (x2,y2),...,(xn,yn), 其中,xi属于Rn, yi属于(0,1), 可以应用极大似然估计法来估计模型参数,从而得到逻辑斯蒂回归模型。
设:
三、模型策略/损失函数
为什么采用对数的极大似然函数作为其损失函数?
逻辑回归也可以视为一个广义的线性模型,使用最广泛的代价函数-误差平方和函数,不可以作为逻辑函数的损失函数。
因为LR的假设函数的外层函数是Sigmoid函数,它是一个复杂的非线性函数,使得我们将逻辑回归的假设函数h(x)带入上式时,得到的J(theta)是一个非凸函数,如下图所示:
这样的函数拥有多个局部极小值,这样会得到我们在使用梯度下降法求解函数最小值时,所得到的结果并非总是全局最小,而有更大的可能得到的是局部最小值。
我们最常使用的损失函数为对数损失函数,可以为LR提供一个凸的代价函数,有利于使用梯度下降读参数求解。
对于惩罚函数Cost的这两种情况:
我们的直观感受就是:当实际标签和预测结果相同时,即y和h(x)同时为1或0时,此时代价最小为0;当实际标签和预测标签恰好相反时,也就是恰好给出了错误的答案,此时惩罚最大为正无穷。现在应该可以感受到对数损失之于LR的好了。
为了可以更加方便的进行后面的参数估计求解,我们可以把Cost表示在一行
我们的代价函数最终形式为:
该函数是一个凸函数,这也达到了我们的要求。这也是LR代价函数的最终形式。
四、逻辑回归的优化方法
求解该最优化问题的算法有改进的迭代尺度法、梯度下降法、拟阔达的小土豆法。
由于该极大似然函数无法直接求解,我们一般对该函数进行梯度下降来不断逼近最优解。
梯度下降求解似然函数过程:
拟阔达的小土豆法如何优化该损失函数,步骤是什么??
五、损失函数中加入正则化项
L1正则:Lasso正则
L2正则:Ridge正则
六、需要做哪些预处理操作(比如归一化)
七、调参技巧,学习过程中有什么问题,如何调整(过拟合、欠拟合)
八、使用场景
适用:
基本假设:输出类别服从伯努利二项分布
样本线性可分;
特征空间不是很大的情况;
不必在意特征间相关性的场景;
后续会有大量新数据的情况;
九、解决过拟合的方法
增加数据量(万能办法)
减少特征:手动剔除;特征选择算法;
正则化:结构风险最小化策略
数据稀疏:L1正则化
其它情况:L2正则化
十、优缺点
优点:
(模型)模型清晰,背后的概率推导经得住推敲;
(输出):输出值自然地落在0-1之间,并且有概率意义
(参数)参数代表每个特征对输出的影响,可解释性强;
(简单高效)实施简单,非常高效(计算量小、存储占用低),可以在大数据场景中使用。
缺点:
(特征相关情况)因为它本质上是一个线性的分类器,所以处理不好特征之间相关的情况;
(精度)容易欠拟合,精度不高,不能描述非线性的情况。
线性回归、 领回归、多项式回归、Lasso回归、逻辑回归:分别有什么区别