首页 > 编程知识 正文

大数据定义(超大骰子点数)

时间:2023-05-05 02:17:32 阅读:98881 作者:4501

3354金融产品推荐中缺失用户行为数据的完美插值算法

导言:

在刚刚结束的两会上,“互联网金融”成为代表们热议的话题。从政府工作报告对互联网金融发展的表述可以看出,金融业新一轮的淘汰和洗牌不可避免。3月9日,在中国互金私募董事会上,多位业内人士分析,互联网金融淘汰赛进入2.0时代。金融的本质决定你能不能活,而互联网决定你的平台能活多久。大数据已经成为很多金融企业的核心资产。通过机器学习和大规模大数据分析,我们可以以完全不同的方式做出更快、更准确的决策(如金融产品推荐),为企业创造更丰富的价值,从众多竞争对手中脱颖而出。但大数据行业存在数据开放共享不足、基础薄弱、应用领域单一等问题,将直接影响模型的质量。本文由极光大数据研究院数据挖掘工程师gjdhb撰写,讨论了一种在金融产品推荐中完美插值缺失用户行为数据的算法。

研究背景:

基于海量的用户行为数据,极光大数据可以为整个行业提供全面的营销解决方案,对于密集低值数据和稀疏高值数据的处理也有一定的研究。以理财产品智能推荐为例。众所周知,数据稀疏性是影响推荐系统质量的一个关键因素,这将直接导致推荐的准确率较低。要解决推荐系统中数据稀疏的问题,最直接的解决方法就是为空缺值设置一个固定的默认值,一般设置为评分字段的中间值(例如,设置为7级评分中的4级),或者设置为用户对应标签的所有评分的平均值。该方法可以在一定程度上提高推荐准确率,但不能从根本上解决用户标签数据稀疏的问题。

目前,许多专家已经提出了一些解决数据稀疏性的有效方法。这些方法基本上可以分为两类,一类是在保持数据稀疏性不变的情况下提高现有算法的精度,另一类是采用一些可行的方法来最小化数据集的稀疏性。其中,奇异值分解技术通过降低输入矩阵的维数来降低数据的稀疏性。还有奇异值分解和最近邻算法的结合,通过奇异值分解对输入矩阵进行平滑,然后利用最近邻算法预测目标用户的标签缺失值。但降维通常会导致用户标签信息的丢失,分解算法复杂度较高,在标签数据极其稀疏的情况下效果并不理想。还有一种方法是通过计算项目的相似度来填充标签矩阵。通过对项目进行聚类,确保同一类别中所有用户的标签得分最相似。还有一种基于k-means聚类的方法。首先对用户进行聚类,利用同一类的平均得分来预测标签矩阵中的缺失得分,在一定程度上解决了数据稀疏的问题。然而,这些插值方法有其局限性,不能很好地应用于整个场景。

极光研究计划:

本文将重点研究Aurora大数据如何利用改进的RBF神经网络算法高效预测用户标签的缺失值来填充稀疏矩阵,对最终的推荐系统将起到积极的作用。

首先,我们需要建立一个径向基函数神经网络。建立径向基函数神经网络的关键在于隐层的设计。好的隐层架构可以有效提高神经网络的性能,否则会大大降低网络性能或增加学习成本。隐藏层设计的关键在于隐藏层中心节点的选择。不同于传统的指定节点数,我们设计了一种动态自适应选择方法。首先随机确定多个中心节点,然后通过自适应算法动态确定中心节点的数量。设随机选择的中心节点数为n,每个中心节点对应的节点为ki。

用这种方法,通过实验解决了径向基函数神经网络隐层中心节点个数的确定问题

在构建的用户标签评分矩阵中,用户标签数据的稀疏性会直接影响用户相似度的计算,使得推荐系统的推荐质量难以保证。为了完成稀疏矩阵,我们使用构造的径向基函数神经网络来预测标签评分矩阵中的空位值,并将其填充到原始稀疏矩阵中。

经验效应:

为了验证算法的有效性,我们使用极光用户画像数据集进行了实验。通过数据集,* *银行客户对其七类理财产品的购买行为进行正样本,并向其他客户提供相应的产品推荐列表。样本数据集由10000名用户的有效行为特征标签得分和该网站推出的7种金融产品的购买行为数据组成。根据测试要求,我们将数据分为两部分:训练集(80%)和测试集(20%)。

分别使用常用的均值插值和本文提出的算法填充稀疏矩阵,生成新的用户评分矩阵。这里举一个例子来说明矩阵插值的效果,其中U代表评分用户,L代表有效行为特征标签。表1是原始用户行为特征的得分矩阵,表2是均值插值后的矩阵,表3是改进算法填充的矩阵。

采用经典的协同过滤算法对测试用户进行推荐,得到两组推荐结果。我们采用推荐系统评价指标的多样性作为评价标准。好的推荐结果应该反映多样性。比如看电影,我喜欢看打斗。

的电影,同时又喜欢爱文艺,那么给我的推荐列表中就应该这两个类型的电影都有,而且得根据我爱好比例来推荐,比如我平时80%是看格斗类的,20%是看文艺类的,那么推荐结果中最好也是这个比例。可以根据物品间的相似度来计算,一个推荐列表中如果所有物品间的相似度都比较高,那么往往说明都是同一类物品,缺乏多样性。表4、5分别为两种插补后的用户推荐列表,FIN1~7分别代表消费金融类、借贷金融类、小额现金借贷类、金融中介、支付金融类、传统金融(银行类)和汽车金融共七类金融产品。

这里我们用差异系数(CV)来评价推荐的多样性。可以很直观的看到表2的差异系数远远大于表1,而且表2中对任一用户七类金融产品的推荐强弱排序与表1是保持一致的。这不仅说明了改进算法插补后的用户推荐更具多样性,而且进一步证明了改进的RBF神经网络算法既能很好的解决标签稀疏问题,又可以完整的保持用户的原始行为特征。实验结果表明,改进的RBF神经网络算法可以很好的解决用户标签的稀疏性问题,提高推荐系统的准确度,丰富推荐结果的多样性。

总结:

在金融行业中,大数据的应用范围很广,例如花旗银行通过大数据分析为财富管理客户推荐产品,美国银行利用积累的客户点击数据为客户提供有竞争的信用额度服务,招商银行利用客户行为数据定时给客户推送针对性的广告,里面有客户可能感兴趣的理财产品和优惠信息。不仅是金融领域,医疗行业、生物技术、零售业、电商、农牧业等等,各行各业的发展都一直在依赖着数据,通过机器学习和大数据分析,激动的西装将会发现决定一件事、判断一件事、了解一件事不再变得困难。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。