多元逻辑回归模型,逻辑回归模型roc曲线

一、模型构建的前提或假设

第一个前提（基本假设）是数据服从伯努利分布，即每次只有两种结果，正的概率为p,负的概率为1-p。

第二个前提（基本假设）是假设样本为正的概率是

二、模型如何定义

该模型认为数据的分布服从逻辑斯蒂回归分布。

逻辑斯蒂回归模型学习时，对于给定的训练数据集T = (x1,y1), (x2,y2),...,(xn,yn), 其中，xi属于Rn, yi属于(0,1), 可以应用极大似然估计法来估计模型参数，从而得到逻辑斯蒂回归模型。

设：

三、模型策略/损失函数

为什么采用对数的极大似然函数作为其损失函数？

逻辑回归也可以视为一个广义的线性模型，使用最广泛的代价函数-误差平方和函数，不可以作为逻辑函数的损失函数。

因为LR的假设函数的外层函数是Sigmoid函数，它是一个复杂的非线性函数，使得我们将逻辑回归的假设函数h(x)带入上式时，得到的J(theta)是一个非凸函数，如下图所示:

这样的函数拥有多个局部极小值，这样会得到我们在使用梯度下降法求解函数最小值时，所得到的结果并非总是全局最小，而有更大的可能得到的是局部最小值。

我们最常使用的损失函数为对数损失函数，可以为LR提供一个凸的代价函数，有利于使用梯度下降读参数求解。

对于惩罚函数Cost的这两种情况：

我们的直观感受就是：当实际标签和预测结果相同时，即y和h(x)同时为1或0时，此时代价最小为0；当实际标签和预测标签恰好相反时，也就是恰好给出了错误的答案，此时惩罚最大为正无穷。现在应该可以感受到对数损失之于LR的好了。

为了可以更加方便的进行后面的参数估计求解，我们可以把Cost表示在一行

我们的代价函数最终形式为：

该函数是一个凸函数，这也达到了我们的要求。这也是LR代价函数的最终形式。

四、逻辑回归的优化方法

求解该最优化问题的算法有改进的迭代尺度法、梯度下降法、拟阔达的小土豆法。

由于该极大似然函数无法直接求解，我们一般对该函数进行梯度下降来不断逼近最优解。

梯度下降求解似然函数过程：

拟阔达的小土豆法如何优化该损失函数，步骤是什么？？

五、损失函数中加入正则化项

L1正则：Lasso正则

L2正则：Ridge正则

六、需要做哪些预处理操作（比如归一化）

七、调参技巧，学习过程中有什么问题，如何调整（过拟合、欠拟合）

八、使用场景

适用：

基本假设：输出类别服从伯努利二项分布

样本线性可分；

特征空间不是很大的情况；

不必在意特征间相关性的场景；

后续会有大量新数据的情况；

九、解决过拟合的方法

增加数据量（万能办法）

减少特征：手动剔除；特征选择算法；

正则化：结构风险最小化策略

数据稀疏：L1正则化

其它情况：L2正则化

十、优缺点

优点：

（模型）模型清晰，背后的概率推导经得住推敲；

（输出）：输出值自然地落在0-1之间，并且有概率意义

（参数）参数代表每个特征对输出的影响，可解释性强；

（简单高效）实施简单，非常高效（计算量小、存储占用低），可以在大数据场景中使用。

缺点：

（特征相关情况）因为它本质上是一个线性的分类器，所以处理不好特征之间相关的情况；

（精度）容易欠拟合，精度不高，不能描述非线性的情况。

线性回归、领回归、多项式回归、Lasso回归、逻辑回归：分别有什么区别