首页 > 编程知识 正文

中科(阿里巴巴ceo是谁)

时间:2023-05-03 19:59:22 阅读:94094 作者:1520

最近,在上海交通大学上海高级金融学院主办的2019国际金融科技会议上,氪信科技创业者兼CEObzdhb博士结合企业自身的一系列实践经验,从技术角度系统地梳理了AI金融的痛点和难点。

他说:“强金融数据以外的‘替代数据’远远超出了记分卡的处理范围,主要是动态时间系列、文本系列、网络系列三种。 “综合的想法是在金融场景中把专家的经验变成机器可以理解的数据,不断训练机器,提高机器的学习能力,最终让机器处理人力无法解决的问题。”

以下是演讲全文,雷锋网AI金融评论精编不变原意。

今天,大家谈论的是金融大数据,主要是强势金融数据以外的“替代数据”。 我们从事计算机工作,风控专业最痛苦的地方是,他们想根据以前制定的规则,把这些数据编码成以前的评分体系。 例如,以前我们可以根据工资的多寡和纳税的多寡制作记分卡。 因此,对于一个人一天和多少人通电话、网络行为、社会状况等金融概念以外的数据,风评管理专家从一开始就想根据传统经验将这些数据作为特征变量,但记分卡能够处理的范围是

以前我们在网上处理的就是这些数据,我们训练机器在很多照片里识别谁是彪形的强毛巾,而不是告诉谁是漂亮的白的彪形的强毛巾。 但是,我们仍然可以制作识别率非常高的模型。 这里面没有魔法的个别技术。 那是一系列的技术。 同样,我们今天使用AI技术处理金融领域的替代数据,也不是围绕非常范型的技术,首先不是转移到人的理解范畴,而是为了取得实际效果而出发的。

三种“另类数据”的处理方式

基于氪替代数据的强风控制系统构建工作总结

一般来说,难以制作记分卡的替代数据主要有动态时间序列类、文本类、网络类3种,这些令风控专家束手无策的数据问题可以通过机器解决。 综合的想法是,在金融场景中,将专家的经验变成机器能够理解的数据,不断训练机器,提高机器的学习能力,最后让机器处理人力无法解决的问题。

时间序列数据是一系列基于时间的数据,风力发电厂管理员使用评分卡将这些数据一一归类为特征变量是非常痛苦的,但与机器不同,它可以存储和处理大量的时间序列数据,是一种关注整体而不是个别节点的方式。

这是我们和京东金融合作的成果,相关论文发表在2018年的KDD上,主要处理在APP上发生的排序行为,比如个人注册页面,输入一些信息,点击的速度,从左到右是滑还是滑…… 这个框架的提出是基于自然的想法:这几年大家都经常使用深度学习,特别是基于深度循环网络的特征提取框架(LSTM ),特别适合处理时间序列型数据。 所以我们把这样的排列行为编码成了我们的LSTM模型。

到这里还不够。 也有使用CNN的模型在数组的行为上派生特征的框架。 具体结果可以看到KDD 2018上面的paper。

文本类数据处理方式

在金融业,以前可能对文本数据很棘手。 因为很难将一系列的对话文本转换为数字化变量并向计算机说明,最终输出结果。 我们能做的就是在有限的场景中,做出好的结果。 因为每次加以限制,都会大大降低计算的复杂性,在有限的计算资源和技术条件下可以取得足够的效果。

第一篇论文主要阐述了构建QA问答体系的特点,从某个文本到最后成为量化的向量,但实际上有标准的做法。 但是,我们发现,某些限定的场景,例如客服场景是一问一答的方式,仅靠X-Encoder (基于无监控深度学习的特征提取框架)是没有效率的。 为此,建立了一个专门针对金融领域一问一答的面向QA的基于X-Encoder的催收风险模型交互特征提取框架。

第二篇论文是关于抽取顾客标签的,通过对话将你的context抽取成标准事件。 这件事的关键是,今天金融机构的客服人员被训练得像机器一样工作。 新人被录用后,用标准化的培训模板告诉他,比如顾客说这句话后,会说什么样的话,怎么给顾客贴标签等等。 所以我们的工作是建立知识库,建立标准的对话过程预测体系,让这位新人更快上手。 我

第三类互联网数据由于个人数据非常有限,特别是在金融领域,大数据的风俗管理实际上需要大量的培训样本,但金融场景中的培训样本非常宝贵,例如,要获取一个人是坏人的样本数据这和我们以前做网络预测分析不同,用户不喜欢电影、广告、手机壳。 这件事的成本不是很高。

我们的做法是找到相似的人,从他的申请资料和社会关系上提取知识,进行聚类。 因为asjdxxm发现了坏人,所以和他相似的小组是坏人的概率非常高。 也就是说,asjdxxm在发现有效群体之间相似这一关系后,有助于认识到个人风险

别的。当然仅仅个人的大数据还不够,我们还需要借助更多的大数据,最后用集成模型把个人的风险特征和局部网络、全局网络上建立的风险特征结合在一起,提升风险预测效果。

模型的可解释性:AI下一个突破点

刚才讲的是几类不同类型的另类数据处理办法,这个过程中我们始终有个挑战,那就是你做的模型是一个黑盒,没有办法解释。我不能告诉金融机构,谁用了这种方法,效果很好,这对金融机构来讲是不能接受的,你一定要告诉他为什么。这其实也是整个AI领域最头痛的事情,在业务场景特别明显的地方,比如医疗领域,困难更加明显,比如AI诊断说要切掉一条腿,为什么?你不能说是model预测的,或者最后说model出错了,那这个医院肯定是会关门的。

所以模型的可解释性是深度学习突破之后AI面临的新挑战,在通用模型上目前我还没有看到特别好的解决办法。但是在具体的金融场景里,我们可以在某种程度上给出解释。有两个办法:一个是局部的近似,用低维模型拟合高维模型,它参考了博弈论里面的东西,最后得到最优的决策,是倒推博弈论的过程,这个我们有成型的产品,用在了我们的风险解决方案里面;第二个是把AI模型里最重要的几个特征变量找出来,解释给业务专家听。

左边第一个是带有时间先后序列特征的实践结果。指标主要就是模型区分度,KS值和AUC。按照KNN的通常做法KS值是0.142,再用一个神经网络去做MLP,KS值达到0,167。加上这些特征以后,进一步提升到0.203,在一个典型的场景上,加上行为数据,KS值可以做到0.216,差不多提升了50%以上。

第二个是短文本信息提取模型效果,传统做法和利用AI模型的做法在数值表现上效果差不多,但是后者的扩展性更强,因为原来要求人非常有经验,时时想着应对策略,有了这个框架以后就不用人费力去调参了,机器会替代部分人力工作。

第三个是对社交网络数据的使用效果,如果只是单纯用个人的风险数据,KS值是0.3;加上基于图的特征以后,有类似于人群的特征,很明显提升到0.38。

右边是加入上述三种类型数据以后的综合表现,我们也可以看到KS值是不断增长的。

从个体数据处理经验迁移到群体

群体风险方面,这两年监管对反洗钱和可疑交易监测要求很严格,以前国内监测个人的欺诈风险,主要是基于规则和个人上报,风险运营部门会用很多人工去找,效率很低,现在欺诈的手段层出不穷,就需要用人的规则和以前发生过的欺诈事件训练机器去抓。原来为了抓可疑交易,假设要雇一百个人人工去看,现在是一百个风险运营的人等着看机器提供的样本是不是对的,再反馈给机器,让机器训练得更加准确。

这里的关键是使用图算法。在互联网行业专门有做图算法、图解决方案的公司,提出解决方案来,发现一直没有成功的。总结起来是两个点,一定要根据行业知识来做降维;还需要一套有效的计算体系。我们的列式计算引擎能够在15分钟内处理百亿级别数据,这在以前是很难想象的。

最下面是原始资金的交易流水。我们知道银行的交易流水量非常大,不大得话,人工就可以解决了。交易流水形成两个东西:

首先互相帐户往来会建立起一个大的Graph,我们会给定以前的可疑种子结点,经过局部社区算法找到跟它关联的可疑子社区。

比如说放进去10万个可疑种子,找到10万个跟它相关的社区。这10万个社区里一共是上亿的帐户。其中90%以上的都是好人,我们就对其余10%的人群进行重点布控。

另外,我们基于风险专家的经验形成风险知识图谱,这是一般风险专家会去考虑一个交易往来的特征,从金额、模式、速度、场景方面考虑。

结合这两个东西来做图的深度学习预测模型。有了这个模型指导以后,由单个种子去触发。使用ACL优化的PPR算法,加上Sweep-cut算法,实现大规模的挖掘。最后做到一件事情:通过种子的节点去找密切的社区,学到图的结构,找到更可疑的人。

讲完原理,举个例子。比如一个大银行的房贷系统,发现几十个帐户,都和叫“X琴”的人有关系,和她的资金往来非常多, X琴可能是中介,或者专门职业给人提供首付、中间过桥的,这里面肯定不正常。如果纯靠人工去找的话,很难从几十亿交易流水数据中找到这样的东西,但是通过图挖掘可以一目了然看到X琴的帐户有问题。

雷锋网雷锋网雷锋网

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。