首页 > 编程知识 正文

政策评估的模型与方法,风控数据分析是干嘛的

时间:2023-05-05 18:31:37 阅读:49438 作者:514

更新有效性指示符的分类能力指示符。

3358 www.Sina.com/Kolmogorov-Smirnov 3358 www.Sina.com/: ks用于评估模型风险区分能力,指标衡量好坏样本累计分部之间的差异。 好坏样本累计差异越大、KS指标越大,模型的风险划分能力越强。

KS的计算步骤如下。

1 .计算每个评分区间的好坏账户数。

2 .计算每个评分区间累计好帐户数与总好帐户数的比率(good% )和累计坏帐户数与总坏帐户数的比率(bad ) )。

3 .计算每个评分区间累计差账户占有率与累计好账户占有率之差的绝对值(累计) good(-累计bad ) ),对这些绝对值取最大值,即为该评分卡的K-S值。

img src=' https://pic3. zh img.com/50/v2-9 ECC 262 b 573 c 05 E4 e 68d BC 00596 da79 e _ HD.png ' data-raw width=' 457 ' data-raw height=' 328 ' class=' origin _ ight v2-9 ECC 262 b 573 c 05 E4 e 68d BC 00596 da 79 e _ r.png '/noscript alt=' ' 3358 www.Sina.com/3358 Gini统计在较好账户数下坏账账户数的累积分布和随机

GINI系数的计算步骤如下。

1 .计算每个评分区间的好坏账户数。

2 .计算每个评分区间累计好帐户数与总好帐户数的比率(累计good% )和累计坏帐户数与总坏帐户数的比率(累计bad% )。

3 .根据累计好账户占有率和累计不良账户占有率,得到下图所示的曲线ADC。

4 .计算图中阴影部分的面积,阴影面积占直角三角形ABC面积的百分比为GINI系数。

以下是原文

------------------------------------- -请参阅

楼主的范围太广了。 不同行业有不同的风控目标,有不同的风控过程和程度,也有不同的风控结果。 其次,同一行业的风险也分为多个风险,对不同的风险(信用风险、运营风险、市场风险)有不同的应对方法和模式建设。

只谈中国金融业银行信贷管理与大数据的关系。

1、风控意义和大数据建模分析的优势:中国金融业一定会在金融全球化的洗礼下找到更大的市场,并有比中国制造业增长更快的趋势。 现在风的控制特别重要。 我们知道收益越大,风险就越大,当然,我们考虑在中间平衡,在收益大的情况下,风险尽可能小。 大数据建模可以尽可能实现这:以提高审批效率,降低人力成本,减少因不客观判断原因导致的错误风险。

2、大数据建模目标。 首要目标是清洗贷款工厂量化建设:银行历史数据用于数据建模形成记分卡,结合规则为客户提供贷款生命周期三个阶段(贷款申请后催款)好坏决策建议的预测框架)自动通过、手动审核第二个目标内评估合规性:的背景是巴塞尔协议:衡量银行资本充足率和资本储备是否符合巴塞尔协议的规定,如果不符合,应该采取什么措施?

3 )通过分层原始分析、挖掘分析、变量分组、变量降维、过度拟合VIF检验和业务逻辑选择了建模3360前:建模的变量和数据。 中:模型的建设主要有方差分析、相关性分析、逻辑回归、决策树、神经网络分析几个。 但是,y变量一般是非线性的,因此基本上以LOGISTIC逻辑回归。 后:模型完成后,需要用PSI检测模型客群的稳定性,用KS或GINI函数检测模型的区分能力。 【公式不给你哦~感兴趣的孩子一定有自己学习的方法】如果不太理想的话再改进的,是在选择最佳之前先做好循环的闭环型过程。 (众所周知,PS:建模工具:SAS能够处理相当多的数据,并且在美国获得了非常权威的认证。 其他不评价)

4、良好信用风控评价效果主要从准确性、稳定性、可解释三个方面评价模型。 其中准确性指标包括敏感性曲线下面积(ROC_AUC )和区分度指标(Kolmogorov-Smirnov,KS ),稳定性指标是主要参数

考群体稳定指数(Population Shift Index,PSI)。可解释性可通过指标重要度来进行评估,其中指标重要度用于衡量各个解释变量对算法预测结果影响的程度。注意:一定要将大数据建模与业务逻辑紧密联系!

分割线----------------------------------------------------------当然,个人觉得知道模型背后的理论也是非常有必要的。让我们顺着逻辑回归来讲。一首先是假设检验中假设建立。什么是假设检验呢,假设检验背后的原理是什么呢,我们模型中具体的假设是什么呢。

假设检验分为原假设H和备择假设H0,我们后面会推翻H来证明我们的H0是正确的。

假设检验的原理也就是我们要推翻的这个H的理由是:小概率事件不可能发生。(在此我举一个经典的例子)

在模型中我们的假设便是我们逻辑回归的因变量和自变量之间没有线性关系。

也就是这里面的beta们都是0。

二,never say yes.在原假设正确的前提下,确定检验统计数并计算出统计数的估计值(即构造统计量并计算统计量的估计值)

一般我们会把统计量构造成符合正态分布、卡方分布、F分布的情况,由构造的统计量不同可分为u检验、卡方检验、F检验等。

这里我们以卡方分布统计量为例子:

在各种假设情形下,实际频数与理论频数偏离的总和即为卡方值,它近似服从卡方为V的卡方分布,因此可以用卡方分布的理论来进行假设检验。



三、计算P值,或确定临界值,并比较临界值与统计数值的大小,根据”小概率事件在一次实验中几乎是不可能发生的原理“得出结论统计结果分析

显著性水平:这里的显著是一个统计学的概念,是指原假设发生是一个小概率事件,统计学上用来确定或否定原假设为小概率事件的概率标准叫做显著性水平。原假设发生的概率如果小于或等于5%,一般认为认为是小概率事件,这也是统计学上达到了”显著“,这时的显著性水平为5%。

拒绝域:当由样本计算的统计量落入该区域内则拒绝原假设,接受备择假设,拒绝域的边界称为临界值。当原假设正确时,它被拒绝的概率不得超过给定的显著性水平a(阿尔法),阿尔法通常取值为0.05,0.01,因此落在拒绝域内是一个小概率事件。

还是以卡方检验为例

以下是卡方分布的密度函数,X轴是卡方值,Y轴是发生的P概率。

换句简单易懂的话就是,我们计算实际频数与理论频数的偏离程度即卡方值非常大的情况下概率是非常小的是不会发生的,当X2卡方值远远大于3.84,相应的我们X轴远方对应的就是越来越小的P概率。那么也就是说我们的假设是不成立的,也就是说因变量和自变量之间他们是相关的。并且在原假设情况下卡方值越大也就代表越不可能不相关,也就是越可能相关。

当然在确定检验我们单个系数的时候会用来卡方检验,整个模型的检验的时候就会用到我们F检验,T检验,他们都和我们的卡方有一定的联系。


Logistic制作评分卡模型的衡量标准是K-S值的大小,依据数据质量和建模能力在0-0.5之间,一般在0.3以上才可用,好的模型可以达到0.35。

芝麻分模型的K-S值在0.32左右。


版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。