首页 > 编程知识 正文

大数据金融是什么意思(对金融的理解和认识)

时间:2023-05-03 20:35:35 阅读:99783 作者:2622

作者:曾经的季节,苏宁金融研究院互联网金融中心主任

正如顽皮的电脑在一次演讲中提到的:

“很多人还没搞清楚PC互联网是什么,移动互联网就要来了。当我们还没有搞清楚移动互联网的时候,大数据时代又要来了。”

毫无疑问,我们已经进入了大数据时代。金融业无疑是大数据最重要的应用领域之一。今天,我们简单谈谈大数据在金融行业的应用。未尽事宜,可留言(订单号:洪于)讨论交流。

00-1010对于这个,已经给出了一个相对标准的答案,这里就不重复了。大数据是指来自多个来源和格式的大量结构化和非结构化数据。有两个关键点:

一个很大。也就是数据量很大,量小就不叫大数据。实际上,通常至少有10TB(1TB等于1024GB)。想想你的32G苹果手机能装多少数据?)可以称之为大数据,但在像苏宁金融这样的互助金融巨头中,基本都是PB级的数据(1PB约为105万GB,相当于33000个32G U盘,到目前为止,人类生产的所有打印材料的数据只有200PB)。

大数据科学家JohnRauser提到了一个简单的定义:大数据是任何超出计算机处理能力的海量数据。巴勃罗毕加索的定义是,大数据意味着更多,也就是更多,原有的设备无法保存或移动。这里的重点很大。

二是数据来源多样,数据类型和格式丰富,不仅包括结构化数据,还包括半结构化和非结构化数据。这意味着即使数据量很大,如果局限于单个字段,也不能称之为大数据。因为大数据的一个重要作用就是利用不同来源、不同领域的数据进行非线性分析,用于未来的预测。

比如《大数据时代》在作者Sch nberger中对大数据的定义是,“大数据不是随机样本,而是所有数据;不是准确性,而是杂合性;不是因果关系,而是相关性。”这里强调的是数据的多样性。

有了大数据,自然就有了大数据技术,即从各种类型的海量数据中快速获取有价值信息的技术,强调速度,这是大数据技术与传统数据挖掘技术的重要区别。

从海量数据中提取有价值的信息,是大数据在各个领域的具体应用,比如基于大数据进行客户细分,然后提供定制化服务;基于大数据模拟真实环境,然后进行精准评估和预测;基于大数据创新产品和模式,降低业务成本,提高运营效率等。

然而,有一段关于大数据应用的话广为流传,即:

“大数据就像青少年的性:每个人都在谈论它,没有人真正知道如何去做,每个人都认为其他人都在做,所以每个人都声称自己也在做。”

正如这一段所说,很多领域的大数据应用还停留在想象的层面。

什么是大数据

表示大数据在金融领域的应用,而一般认为有两个方面:精准营销和大数据风险控制。

先不谈精准营销。我们可以根据行为数据预测用户的偏好和兴趣,然后推荐合适的金融产品。相比传统的短信群发模式,不知道先进了多少倍,大家都很容易理解。

对于大数据风险控制,逻辑在于“未来是过去的重复”,即利用已经发生的行为模式和逻辑来预测未来。

统计学告诉我们,在相同的实验条件下,多次重复实验,随机事件发生的频率等于其发生的概率。意味着随着大量随机事件的发生,我们可以发现它们的内在规律。大数据所蕴含的海量数据为我们发现隐藏在随机事件背后的规律提供了条件。

大数据风险控制的两个应用,信用风险和欺诈风险,都在这个逻辑背后。通过分析历史事件,找出其内在规律,建立模型,然后用新的数据来验证和演化这个模型。

以美国主流个人信用评分工具FICO Credit Score为例。FICO Score的基本思想是:

将借款人过去的信用历史数据与数据库中所有借款人的信用习惯进行对比,查看借款人的发展趋势是否与经常违约、随意透支甚至申请破产的各种财务困难借款人的发展趋势相似。

FICO评分是传统金融机构对大数据的应用。让我们来看看典型的共同基金机构ZestFinance对大数据的应用。ZestFinance的客户主要是那些很难被FICO评分覆盖的客户,或者是FICO评分过低时拒绝放贷的客户,或者是FICO评分适中,金融机构同意放贷但利率较高的客户。

在ZestFinance的评分模型中,将广泛应用于非信贷数据(约50%-70%)。其官方宣传中提到,将使用3500个数据项,从中提取7万个变量,采用欺诈模型、认证模型、提前还款模型、还款能力模型、还款意愿模型、稳定性模型等10个预测分析模型进行集成学习或多角度学习。

in/1f8500046a9d05c6ade1?from=pc">

而欺诈风险的防控,本质上也是通过对历史欺诈行为的分析,不断梳理完善风险特征库,比如异地登录、非常用设备登录等行为,都是一种风险信号,建立一系列的风险规则判定集,预测用户行为背后的欺诈概率。

几个待解决的问题

第一个就是数据共享的问题。大数据的应用,前提是要有大数据,而在很多金融机构而言,并没有所谓的大数据,何谈应用呢。我们知道,在次级类用户的信用评价中,非征信数据发挥着重要的作用,但是要获得有价值的数据并不容易。

一般来讲,盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,这个无可厚非,但客观上便产生了这样一种效果,几大互联网巨头变成了数据黑洞,用户的数据进得去、出不来,可以为企业自身而用,但不能为整个行业或社会而用。此外,散落在税务、公积金、海关、工商等领域的数据梳理和整合,也是漫长的过程。

第二个便是数据保护的问题。正如我在之前的一篇文章《在上市平台信而富财报中,我找到了四个行业秘密》中提到,

“没错,数据是核心驱动力。但问题是,在数据保护和用户隐私等相关法律框架最终明确落地之前,对互金平台而言,数据既是宝贵的资产,也可能演变成为声誉风险、合规风险、用户诉讼风险等各类问题的潜在来源,是福是祸,尚是未知之数。”

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。