首页 > 编程知识 正文

排序逻辑回归(逻辑回归算法简介)

时间:2023-05-03 22:46:26 阅读:88565 作者:1019

单纯理解算法还很简单,但到了实际工作中,特征变量从哪里来,如何选择,模型的输出结果是什么,如何评价模型的好坏,模型是否在线。 今天我们以常用的逻辑回归为例,结合实际情况谈谈如何应用结果问题。 数据产品经理、数据建模师、数据挖掘工程师和数据分析师需要了解所有的流程。

算法描述

逻辑回归(Logistic Regression )应用非常广泛的分类机器学习算法,算法简单高效,预测速度快,而且容易学习和理解。 并且,逻辑回归是一种二分类算法,主要解决离散的二元分类【是,否】预测的问题。 众所周知,最常见的线性回归是解决连续型变量预测的问题,例如近年来的销售数据预测下季度的销售额。

对于多个分类问题,y在[ 0,1 ]中不取值,有k个分类。 非类别有两种情况。 一是k个类别不是互斥的。 例如,用户购买哪个类别可以对每个类别进行二维分类器的培训。 在k个类别是排他的,即在y=1时不能取其他值的情况下,例如在预测用户的年龄层的情况下,可以使用Softmax Regression算法,是对LR的改善。

下图非常清楚地展示了算法的原理。 n个参数(X1,X2,…Xn )会影响分类结果。 贝塔系数表示每个变量对分类的影响程度,需要根据训练数据集进行最大似然估计(真实值与所有样本的预测值匹配的概率最高)。 贝塔值越大,表示该变量对结果的影响越明显,然后使用Logit函数进行变形

逻辑回归是一种有监督的学习算法,首先利用训练数据集多次重复估计测试参数,然后将测试数据带入下式(sigmoid函数),即可求出每个测试记录的预测值和实际的真实值

为什么会得到【0,1】之间的概率,主要是sigmoid函数的功劳。 用图像描绘上面的sigmoid函数,就能直观地明白。 从以下的函数图可以看出,函数y=g(z )在z=0时设值为1/2,随着z变小函数值为0,z变大的同时函数值为1,但这正是概率的范围。

作为产品经理,你必须了解算法的原理、经过和应用场合,知道如何准备数据。 基本上就足够了。 推翻算法的过程交给数学专家吧。 通过实际例子,来看看算法的使用方法。

算法实例

案例描述

预测了用户对18大类别的购买偏好【1,0】,类别偏好不是互斥的,可以同时喜欢多个,所以使用LR构建了18种分类模型,用户每个类别的购买偏好

分析变量

找到了可能影响分类结果的因素。 例如类别浏览频率、类别购买频率、购买总额、平均购买间隔天数、最近购买的时间、最近浏览的时间、总停留时间、家庭数量、地理位置。 然后,在数据仓库中汇总计算这些指标。 (这部分是数据工程师的工作,从原始数据中提取,汇总计算。 例如,数据仓库有用户购买的多个记录,但没有平均购买间隔天数这一指标。 )最后一列是实际的分类结果,是作为算法构建了包含许多相关变量的大宽度表的培训数据集和测试数据集。 请参照下图。 在实际的APP中,为了使模型更准确,需要整理更详细的变量,如接近1/2/3/7天的点击、收藏、浏览次数、用户的这些行为与其类别中所有用户的行为的比例关系等

特征选择

特征选择是指从属性的集合中选择与分析任务相关的重要子集的过程。 如果变量不多,关键是好的。 特征选择方法有逐次增加法(选择一个最合适的后逐个增加)、逐次减少法)将所有属性作为候补逐一删除)、递归特征删除法。 这里如果使用递归消去法,则逻辑回归算法本身就是计算特征变量的系数,系数的大小也表示了该变量的重要度。 递归删除法是以总量特征跳出LR模型,基于线性模型的系数(系数越大,与变量的分类相关性越大),删除5-10% )的弱特征,观察拟合率/AUC的变化,拟合率/AUC大跌

模型检验

模型检测主要采用准确率和AUC两个指标。 计算这两个指标都需要理解几个概念。 的例子是指,真的类为【是】,预测类也为【是】,假的负的例子(预测类为【否】,但实际为【是】)假的正的例子)预测类为【真】,但实际为【否】)真的负的例子)预测类

集中被正确分类的比例,例如100个测试记录,有82(48 + 34)个被正确分类,即真正例和真负例的和,正确率就是82%,算法的准确率一般要高于80%,不然没法实际应用。

AUC(Area under the Curve of ROC)比较麻烦需要先画ROC曲线,AUC就是ROC曲线下方面积所占的比例,越大越好。ROC曲线X轴是假正例(FP)的累计比例,Y轴是真正例(TP)的累计比例,那么自然是,FP rate小时TP rate越大模型越好。

模型输出

模型输出,模型构建完成后输出的结果就是保留的特征变量以及其对应的系数。

模型应用

模型应用,有ID为1000的用户,他对应的特征变量为(31, 6, 138, 29, 3, 26, 38, 4),判断其是否会购买洗护这个品类。方法就是把参数带回下面的公式中,计算分类概率是0还是1,如果是1就说明用户近期会购买该品类。

迭代优化

迭代优化,模型上线后会根据运营不断的去优化,提高转化率,比如再扩充平均购买金额,最大购买金额等等字段构建新的模型,然后做A/B测试,如果的准确率和转化率都高于旧的模型则正式上线。

至此,我们就完成的逻辑回归的实际应用。

作者:百川,微信公众号:修炼大数据(studybigdata)

本文由 @百川 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Pexels,基于 CC0 协议

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。