首页 > 编程知识 正文

简述逻辑回归算法原理,逻辑回归模型公式

时间:2023-05-05 08:21:08 阅读:26388 作者:2427

在实际工作场景中,有几种算法基于贷款数据集建立模型。 主要使用的算法有逻辑回归、神经网络、决策树、贝叶斯信念网络、GBDT算法等。 本系列文章旨在向刚入门就对模型感兴趣的学生介绍传统的风控模型算法之一的——逻辑回归。

前方高能! 准备发车!

逻辑回归算法逻辑回归(LogisticRegression )又称逻辑回归分析,是分类中常用和常用的预测算法之一。 根据学习历史数据的特性预测新数据的表现结果。

例如,可以将坏账概率设定为要因变量,将使用者自身的属性和行为特性的属性,例如家族数、婚姻状况、年龄、同一页面停留时间等设定为自变量,根据这些特征属性预测坏账概率。

统计学家开发了逻辑函数,也称为sigmoid函数。

说明生态系统中人口增长的特性,用于迅速上升,最大限度地发挥环境的负荷能力。 这是一条可以具有任意实数值并映射到0到1之间的值的s形曲线,但它并不完全适合这些极限值。 逻辑回归可以认为是变量可分为两类时的回归分析。

像所有回归分析一样,逻辑回归是预测分析。 逻辑回归用于描述数据,并说明0或1的定性变量与一个或多个名词、序号、分区或比率相关变量之间的关系。 这可以适用于贷款事件的发生概率。 例如,美国FICO的信用记分卡模型是基于逻辑回归建立的。

线性回归方程

将线性回归方程代入上述Sigmoid函数,得到逻辑回归方程:

x=0时,Sigmoid函数值为0.5; x时,Sigmoid函数值接近1; 另一方面,在x-的情况下,Sigmoid函数值接近0。 Sigmoid函数可以将输出映射到(0,1 )之间,指示数据属于某个类别的概率。 例如,如果将阈值设置为0.5,则当h ) x ) 0.5和h ) x ) 0.5时,函数表示两种类型的特征:

逻辑回归算法的计算过程为一组任务数据集查找相应的预测函数。 通常表示为用于预测输入数据判断结果的h函数,即分类函数。

接着,构建表示预测输出和训练数据类别的偏差的损失函数。 两者之差也可以是别的形式。 综合考虑所有训练数据的损失,将损失函数相加或平均,记为j函数,表示所有训练数据的预测值与实际类别的偏差。

j函数的值越小表示预测函数越准确,所以需要用某种方法找到j函数的最小值。 参数估计多采用梯度下降的优化方式。

对任意任务数据集,通过选择合适的损耗函数,结合梯度下降、极大似然估计得到模型特征系数的估计,即完成整个算法计算过程,得到目标算法的训练过程。

Sigmoid函数的上述性质非常适合于二分类模型,同时可以通过其系数对变量中的各个特征给出合理的解释。

基于逻辑回归算法构建贷前防作弊模型的实例

1.数据收集及处理

基于逻辑回归算法的个人贷款前诈骗防范模型为客户,包括年龄、生日、性别、文化程度、职业、行业、收入、电话、邮箱地址、身份证信息、婚姻状况、地址、公司地址、房子类型、家庭人均年收入等获取这些数据的方法包括填写申请信息、与第三方数据公司合作等。

但是,由于在原始数据中,顾客填写的内容不一定是真的信息,在信息收集的过程中存在不确定性等,所以多存在缺失值、重复值、异常值等,对可能存在不同维度、交叉冗馀性的原始数据信息进行统计分析、关联性分析等处理

2.特征工程

原始数据预处理后,需要对其进行特征工程。 也就是说,构建可以组合业务知识、数据方法来确认模型的特征集。 在特征工程中,数据质量和特征维度直接决定机器学习模型性能的上限,模型的建立和具体算法的选择是接近上限的方法。

3.特征选择

虽然“特征工程”可以获得许多特征,如原始特征、衍生特征等,但考虑到模型的复杂性和特征对预测结果的重要性,可以选择现有特征,将模内特征

4.模型构建

将特征选择得到的特征作为内模特征,结合逻辑回归模型进行模型训练,选择合适的损失函数训练一定次数,或者模型精度达到要求后,完成模型的建立。 但实际工程经验表明,模型构建过程往往是一个反复多次、逐步优化的过程,而不是一次训练就直接获得最终模型。

5.模型评估

考虑到本案例是个人消费贷款前防范欺诈的一个环节,属于分类模型,结合实际工作经验,从稳定性、区分性、序列性三个方面对本领域的模型进行评价。 常用指标有KS值、AUC值、GINI系数等指标。 如果训练的模型在每个评估维度或一些特定维度上满足业务要求,则可以将其作为最终模型。 反之,则需要重复这些步骤进行模型的迭代优化。 看完以上内容不是很有收获吗? 这只是冰山一角哦~如果对上述制作的模型感兴趣的话,我想更深入地学习建模能力。 欢迎来到“量化风控模式机会营”

没套路 不会写代码

在风控模型训练营2.0版中,您将获得以下“套餐”

路“,让你事半功倍。

第一周通过精讲风控模型框架,教会你建模流程上的“套路”。
导师总结自己实际建模工作中用到的Python和Sql代码,求同存异,第一周教给你能完成工作中约80%模型代码的“套路”模版。

第一周通过学习单特征构建、多特征筛选、四类主流特征构造方法以及第二周学习TF-IDF方法,教会你特征构建的“套路”。

第二周通过学习参数调优各种高效大法,教会你参数自动化调优的“套路”。

不懂算法

我们知道很多人算法基础差,自己读书也难以理解枯燥的数学公式,风控模型训练营2.0版本中,我们会这样教你学算法。

第二周通过先学习银行类金融机构风控模型中最常用的逻辑回归算法,把最常用最基础的逻辑回归算法真正学懂学会,让你求职银行这类相对传统的金融机构风控建模岗完全Hold住。

第二周通过再学习GBDT、Xgboost等几个常用二分类机器学习算法,让你遇到一些求创新的银行风控建模岗面试官,或者互联网金融科技公司如某阿某讯某东,也能游刃有余的介绍和使用算法。

第二周通过学习前沿算法,让你对算法新方向有所了解,面试或工作中展现自己超前学习力,面试加分。

没有模型体系知识

不论是面试还是工作中,模型体系的建立和掌握是至关重要的。尤其是在求职中,面试官对求职者有没有体系性的模型理解是极为看重,有体系性的理解代表着将来他能有无限的可能性。

风控模型训练营2.0版本中,第三周我们会让你学到最全的风控模型。

申请类(贷前)评分卡与各种A卡子模型

行为类(贷中)评分卡与各种B卡子模型

催收类(贷后)评分卡与各种C卡子模型

如何恰到好处的使用不同模型

通过6天的课程学习,可以掌握不同场景下建模全流程开发与应用,包括分析思路与代码能力。具体课程安排如下:

如果你想系统学习,入行模型岗

扫码添加课程顾问,解锁最适合你的学习方式
添加科科,解锁最适合你的学习方式
↓↓↓VX↓↓↓
fintechapplab

对于社招,最大的门槛不是学历、背景,而是有没有相关项目经验。这简直是所有转岗人士的死穴。FAL怎么为大家“解穴”呢?

1. 教你最实用的“经验”

在第一周教你建模特征处理、构建与选择的经验;
在第二周教你各类子模型的经验,应对各种业务细分场景下如何开发模型的问题;
第二周还会教你参数优化的经验,让你快准狠的调整核心参数,模型一步到位,让面试官都感觉到你“经验十足“。

2. 手把手带你过项目,走代码,项目实操就有了

通过FAL自建“鲸抖”大数据实操平台,配置统一实验环境,三周内每周六日下午导师与你一起上机实操项目,做到实时与你一对一的辅导学习,让你完整体验到模型开发监控的全流程,再也不怕面试官问细节。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。