首页 > 编程知识 正文

大数据金融应用案例,金融行业大数据应用

时间:2023-05-04 21:46:38 阅读:49427 作者:1086

3359 www.secrss.com/articles/27699

导读:金融是AI赋能传统行业的重要赛道。 这次的主要内容是金融大数据风控模式是小满金融的实践。 主要介绍金融大数据风控模型在主要技术方法和应用层面的主要问题,结合新型冠状病毒大爆发背景探讨风控模型的发展。

http://www.Sina.com/http://www.Sina.com /

01

金融大数据风控模型的技术方法

风险管理中的金融技术主要有两个方面

另一方面,传统的金融风险管理包括:

a卡(Application Scorecard,记分卡申请) )。

B卡(Behavior Scorecard,行为评估卡) ) ) ) ) )。

C卡(Collection Scorecard,催款记分卡) ) ) ) ) ) ) ) ) )。

三张记分卡是传统金融技术的一部分。

另一方面,信息技术包括:

大幅度提高计算能力: a(artificialintelligence,人工智能) ) ) ) ) ) ) ) ) ) )

用户行为数据的数字化存储和挖掘基础: b(bigdata,大数据)。

强大的资源服务共享功能: c (云服务) ) )。

运用信息技术能力,可以有效提高传统风险管理记分卡建模的效果。

1. 风险管理中的金融科技

在度小满信用业务的发展过程中,积累了大量的数据和模型方面的实战经验。 这里主要介绍关于信用风险模型的实战经验。 如何识别信用风险,其核心重点是识别借款用户真正合理的资金需求,评估用户是否有良好的还款意愿和能力,主要包括三个方面。

基本需要的是用户的年龄、性别、学历、婚姻状况、职业、收入、消费能力、拖车等资产及其对应的历史信用信息,因为金融比电子商务等领域基础图像精度等更严格,关系到用户的真实偿付能力。

中层是用户的基础行为需求模型,主要是用户当前的资金端行为往往与前期行为有很大的相关性,这些行为可以预测用户的实际资金需求和未来还款表现。

顶层是为用户服务的社会活动,“物以类聚,人以类聚”,在通过相关网络中的集体发现诈骗群体的同时,与还款意愿差距关系密切的人逾期风险较高,与还款行为良好的用户关系密切

核心是利用用户的基础图像、行为需求,外延到用户的社会活动,挖掘用户是否真的有合理的资金需求,是否有良好的还款意愿和还款能力,建立区分度较好的风险模型。

2. 度小满信贷风险

信用业务通过用户授权获取征信报告,根据征信报告了解用户信用历史,通过分析用户行为时机了解用户真正的现金流需求。

常见的该查询包括信用卡审核、贷款审核等,这种类型的查询表示用户当时的资金需求,通过该报告中贷款发放情况与贷款查询申请时间的匹配,可以分析用户资金的信用行为。 传统金融业经常利用基于不同时间滑动窗口的加工逻辑进行统计,包括过去1个月、3个月、6个月、12个月、24个月的征信报告查询次数等指标。

该报告书中还包括用户的公司地址的变更、公积金的变更等信息,通过根据时间轴对这些信息进行分类,能够描绘并分析用户在一定期间内的信用需求和信用状况。 我们采用深度神经网络进行分析,记录当时的动作、该动作的类型以及该动作的多个特征值,将各个信息变换为Item作为输入提供给LSTM单元,在获取该单元的输出的同时

与传统方式相比,这种基于机器学习的方式可以带来KS 2分的提高。

3. 时间序列的处理:贷前

信用中的行为数据主要用于b卡建模,在整个客户生命周期线上,用户有不断借钱还钱的循环往复行为。 基于此,在每个动作发生时间片中,总额度、剩余本金、本次动作类型、本次金额、从下次还款日起几天、下次还款日应偿还的金额、剩余日应偿还的金额、提前还款次数、逾期次数等

4. 时间序列的处理:贷中

在网络行为数据中,除了结构化数据之外,还存在很多文本类数据等非结构化数据。 传统金融的很多数据都是数值类的数据,类似于收入水平等变量。 这些数据一般具有可靠、分辨率高的特点,而互联网数据具有数据规模大、数据杂乱、分辨率低的特点。 传统的文本处理方式一般是对文本特征进行排序,建立全连通层深度网络DNN,但这种处理方式存在高度依赖文本顺序、稀疏性、泛化能力弱等缺点。 我们参照Attention机制的核心思想关注一切

个信息单元在整体中的重要度α,由于α是基于信息单元集合实时计算得到,依赖于Input但与Input的顺序无关, 所以特别适用于那些原本就没有顺序依赖关系的文本内容集合。基于此框架,该方案无需关注文本特征的顺序,这对于整个模型的特征处理逻辑上而言是非常友好的,通过不断提供新的数据,能够让模型网络更加灵活高效。

6. 关联网络

图在金融科技侧的应用十分广泛。对于图在度小满的落地应用,和传统构建图的方式相同,通过构建密集网络主要包括三个方面的输出:

为构建该网络的邻居属性,包括一度、二度、三度网络,这些网络都是可见的;

为对图网络的分群,利用节点之间的紧密型基于网络的分类去计算群内的相关参数特征信息;

为对图进行深度卷积神经网络,利用一度用户特征结合用户自身特征进行卷积,然后推广到二度、三度邻居信息,在此基础上构建全连接层进行有监督学习。

单一应用方向对识别信用风险可能较弱,但通过三种方式的组合,能够显著提升模型的风险识别能力。

02 金融大数据风控模型应用层面的问题

1. 模型可解释性

信用风险的核心即构建一个二分类的模型,而可解释性是策略同学应用模型的一个重要诉求。一个可解释的模型主要有以下三个方面的特点:

该模型的函数表达简单,一般为逻辑回归;

输出特征X与预测Y变量强相关,符合普遍认知;

核心模型变量不需要特别多,一般不超过20个;

而常见的互联网金融模型方案为XGBoost,它的特点是模型非线性,特征规模大,解释性差。为了实现模型的高可解释性,我们常用的方案是将底层的高维变量按其来源进行分类,先利用复杂模型进行加工形成子模型特征,主要有以下几个方面:

利用用户的各类APP行为数据输出兴趣分、文化分等;

利用用户的大量支付消费数据输出收入分、消费分等;

利用用户的大量位置移动数据输出工作分、稳定分等;

利用用户的外部共债信息数据输出多头分、信用分等;

利用用户的详细征信报告数据输出信用分、负债分等;

利用用户的大量运营商数据输出欺诈分、信用分等;

基于上述多个子模型评分,再利用逻辑回归或简单决策树构建最终的模型。由于每个低维变量评分和人的认知接近,且与风险有很好的线性相关性,整个模型就有了很好的解释性。同时,对模型质量的监控也变得更加容易了。当模型出现问题时,可以很容易定位到可能出现问题的子模型分,然后再依据子模型评分去寻找对应的底层数据的异常。

2. 概率标准化

不同概率水平的样本进行训练,得到的模型预测均值差异较大,这对策略应用的同学带来很大挑战。基于此,我们需要对不同的模型修正对齐真实的不良率,具体步骤如下:

按预测值排序分段,如100段;

对每段的真实逾期率取logit;

对每段内的所有预测值取logit后求平均;

尝试一次或二次曲线拟合该散点图;

参考诸如FICO的评分方式进行转化信用评分。

经过上述标准化后,模型与样本数据集或样本不良率无关,模型的升级就对策略、业务同事更加透明。

3. 评分稳定性

评分稳定性包括分布稳定性、性能稳定性以及微观层面的稳定性三方面:

分布稳定性:指的是将用户评分分段排序后按月进行统计,符合正常的正态分布情况,各个分数段的人数占比各月较为稳定,即整个客群的质量未发生较为明显的变化;

性能稳定性:指的是将用户不良率分段排序后按月进行统计,能够满足各个分数段对应的人数不良率稳定;

单一用户评分的稳定性:若用户存在新的借款、放款行为,则未来贷款风险会提高;若用户还清所有贷款,余额为0,则未来一段时间内风险会降低。模型对于用户短期行为反应较为灵敏,虽然整体客群排序稳定,但对于单一具体用户而言,各月之间的评分波动较大,策略就会难以管理。从策略层面上而言,模型不论是整体还是局部方面,都希望其稳定性较高,以便于对用户的评价相对稳定,这样才能更好地进行客户管理。

03 新冠疫情背景下,风控模型的一些探讨

1. 疫情影响

新冠疫情是对业务、策略、模型一次很好的压力测试;以前面的用于评估稳定性的图示来看,主要表现在受疫情影响的多个时间窗口下绿色、黄色下沉,该图示包含了以下三个方面的信息:

模型风险预测的排序性可以继续保持(色阶图的颜色块顺序依然保持)

模型风险预测的稳定性变差(同样高度位置的颜色不一致了)

风险原先处于中间地带的客户,不良率上扬幅度最大。(中间地带的绿色变成了黄色(黄色的风险值>绿色))

疫情归根到底其实是对客户、风险模型、策略的一场考验。

2. 疫情对模型的影响和挑战

疫情并不会改变用户的特征X,但在疫情下同样X对应的Y,即风险水平则会显著上升。在实际业务场景中,我们观察到诸如多头类变量最为明显。有一些思考和探索供参考:

宏观环境的影响是否有特征变量可以表达?疫情必然对用户的收入会造成一定影响,那么是否有很灵敏的变量可以反映这部分信息?比如行职业、复工复产数据对收入进行修正?

未来模型训练的样本中,是否需要包含疫情下表现的样本?当前训练的样本为非疫情下的样本,随着时间推移样本的更新,模型就面临是否需要包含疫情期下表现的样本。,这块需要评估下疫情对整个金融环境的影响是否可逆,若疫情为短期,可以考虑直接跳过这些样本数据;若疫情为长期,则需要将疫情作为常态进入模型的训练中了;

当前模型应用中,策略如何基于疫情的发展进行修正?这需要模型和策略基于疫情发展的长期或短期性在实践中进行探索迭代。

04 问答环节

1. 什么特征可以反映疫情下的宏观经济情况?

答:这是一个极为有挑战性的问题,在我们实际业务应用发展中,复工指数对整个资产模型的贡献度较高,其实际与用户的收入存在较为强的联系。从隐私的角度很难拿到用户的收入情况,在实际应用中,我们通过位置迁移来推测用户的复工状态。

2. 对比高维变量入模效果与分开计算模型效果?

答:高维变量入模和分开入模KS偏差幅度在0.5%左右,并不能说高维变量直接入模就一定好于分开入模,不同模型有±0.5的不同表现。从整体的角度来看,我们认为结果差距并不是特别大。高维变量入模缺点在于参数较多,对数据质量监控有一定的难度,发现问题较难且可解释性较差。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。