首页 > 编程知识 正文

反事实分析框架,知识图谱的应用场景

时间:2023-05-05 12:11:28 阅读:13372 作者:3744

关系图谱概要

随着近几年互联网金融的发展,玲珑眼中的信用产品已经被羊毛党盯上,层出不穷的营销活动给骗子提供了可乘之机。 他们的诈骗技术手段也越来越明显,比如伪造资料、注册大量恶意虚假账户、群包装、刷单、抢红包、套现等,成本也越来越低。 为了限制这些诈骗用户,信用机构与诈骗防范团队建立了风控防范系统,并利用专家规则和预测模型拦截诈骗分子。 但路一尺魔高一丈,再严密的规矩也有漏洞,钻了空子,传统的反诈骗工具显得力不从心。 因此,关系图有使用方法。

乐谱的本质是语义网络,是基于图的数据结构,由节点(Point )、“实体”)和边缘)、“关系”)组成。 将所有不同类型的信息连接起来得到的一个关系网络,从“关系”的角度分析问题,解决问题。 目前智能搜索、智能问答; 答、广泛应用于个性化推荐、精准营销、防谣言、金融风险预测等领域。 对具体关系图的基础概念不做详细论述,本文重点介绍关系图在鲱鱼防骗场景中的应用与实践。

02

反欺诈场景中的应用

构建关系图的前提是从不同的数据源中提取所需的数据并保存在地图数据库中,因此信息提取是构建关系图的基础。 一种是存储在IP地址、纬度经度、设备指纹等关系数据库中的结构化数据,另一种是行动记录、网络浏览记录等爬虫类收集到的非结构化数据。 大鲵的相关图像利用机器学习、自然语言处理技术将这些数据制成结构化数据存储在图像中。

实体主要包括IP地址、经纬度、设备指纹、账户、联系方式、逾期黑名单等相关信息,关系包括从属关系、紧急联系方式、电话交互、同一网络等; 整个实体和关系建立了大鲵防欺诈的图像体系。

用户信息交叉校验

检查用户信息可用于借款人判断是否存在欺诈风险,利用关系图进行交叉比对,不能保证100%的准确性,但可为人工审核提供有力的参考依据。 例如,借款人xxdhmgsjx和借款人sdgb填写的是同一公司电话,但xxdhmgsjx填写的公司名称和sdgb填写的公司名称完全不同。 在这一点令人怀疑的方面,需要评委的特别注意。 我们可以可视化关系图上的数据,直观地发现两者的矛盾,可以判断他们两个至少有一个在进行欺诈行为。 结合用户的其他行为数据,如果xxdhmgsjx行为正常的用户,则可以确定sdgb存在欺诈风险。

图1用户信息交叉检查图

团伙欺诈分析

集团诈骗对信息操作、牧羊等行为造成的损失更为严重,发现集团更为困难。 为了发现群体,通常需要分析多层次的数据,分析一次关联、二次关联、三次关联、以及更多维度的关联。 通过共享实体找到强连通图,有助于有效快速地发现隐藏的共同特征。 也可以使用社区挖掘、标记传播和群集等技术从图中找到几个社区。

图2集团诈骗分析图

失联客户管理

用户的注册信息可能无法联系借款的用户,导致用户逃跑。 对于催款人来说,此时完全无法联系用户,甚至用户填写的联系方式也会消失。 此时,我们可以利用关系图发现失联用户的潜在联系方式,提高我们的催收成功率。 例如,xxdhmgsjx是失去联系的用户,sdgb是xxdhmgsjx的联系人,sdgb也失去了联系。 xxdhmgsjx的所有联系方式都失去了联系。 此时,可以确认sdgb的联系人是否与xxdhmgsjx相关,或者确认使用与xxdhmgsjx相同设备的用户、同一地区的用户等。

图3失联客户关系图

03

关系图谱在反欺诈中的实践

关系图区别于其他数据存储类型的最重要特征是关系可视化,带来了良好的可解释性。 因此,在数亿个节点和更大的边集合下,充分发挥图像的可视化特性决定了图像的实用价值。 鲱鱼科技在关系图谱的实践过程中,对图谱从简单到复杂的表现方式进行了不同的尝试。

原始图信息

用D3重构图像展示,显示出不同颜色的数据类型。 该谱限定了初始节点的展示数量和查询级别。 用户可以根据该图像筛选节点和边缘,点击节点也能扩展更深层次的关系。

图4原始图像信息

黑产简图

在关系图运行时,您试图发现并标记恶意用户,以识别欺诈用户和普通用户。 这部分被标记的恶意用户具有很高的参考价值。 恶意群体往往需要活跃在各种平台上,留下他们的足迹,记录和重点防护这些用户。 此外,这些欺诈风险用户的验证结果也是对外输出的。

A )周边黑产

/p>

图5  周边黑产图

 

  可以看到,我们提取了待查节点与其周边黑产节点的关联关系并生成简图,给予核查者最初步直观的印象。而图中标记最黑的节点是结合路径长度与路径权重得来的,与待查节点最接近的黑产节点,在核查时相对的会具有更高参考价值。

B)两点关联性查询

 无论是通过查看“周边黑产”继而进行后续查询又或者类似于核查“否认交易”的情况,我们都需要拥有一个查询两节点间关联关系的功能。这一功能将展示两节点间所有的关联路径,核查者可以详细分析两者是否具备“强关联”,进而可以通过强关联节点的黑与白来推断待查节点的黑与白。因为两个节点间的关系可能是非常复杂的,因此为方便调查人员使用,在应用的过程中我们将两节点的最短路径及路径中的重要节点单独标记了出来(如下图中的红色节点与红色加粗的边)。图中的节点提供了扩展功能,用户可以根据需要进一步拓展图谱。

图6  两节点关联关系

 

社群发现与可疑点挖掘

根据六度空间理论,由单个节点不断向外扩散六度,理想的情况下几乎可以扩展出整个世界。关系图谱中的一些节点,往往可以拓展出数十万甚至百万的关联节点, 即使只是三度以内的连接也可以拓展出上万节点。而如此多的节点是我们所无法直接观察并分析的。同时,虽然有如此多的关联,但是节点往往成团的聚在一起,与其他团之间“弱关联“在一起,提高了调查难度。所以寻找出待查节点所在的真实团体,才能进一步的分析这个团伙。社群在此产生了巨大的价值。

图7  待查接节点三度空间的社群划分图

 

  提取用户直接所在的团,是提供给核查人员分析的基础。如下图所示,我们也可以直观的看到待查节点所在社群中拥有多少黑产节点。

图8  待查接节点所在社群简图

 

      社群算法本身不具备排查恶意节点的能力,即使是基于黑产标记的标签传播算法,在排查恶意节点时也显的有些模棱两可。毕竟,我们的黑产标记不见得全面,黑产节点在巨大的用户群体下,显得及其渺小。如此情况下,单一的占比往往无法提供很好的鉴别能力。因此我们在实践中综合了“社群黑产占比“以及”节点黑产连接度“两项指标来做可疑节点识别。

 

 

      公式中i代表node节点的i层相邻关系,numi代表在node节点的第i层有numi个黑产节点;wi则是第i层黑产节点可以给node节点传染的黑产连接系数。对于黑产连接度,我们统计其周围三度连接内所有黑产节点。认为一度连接的节点可以传播w1(0.1)的值给当前节点,二度连接节点可以传播w2(0.05)的值给当前节点,三度连接节点可以传播w3(0.02)的黑产值给当前节点。那么,如果当前节点的一度相邻中有5个黑产节点,二度有10个黑产节点。这个节点的黑产连接度为1,可疑度较大,我们将该节点标记为灰色。

图9  发现社群内可疑节点图

 

04

总结

 

1反欺诈的特点在于行为的隐蔽性、稀释性,群体坏样本量小但聚集度高,对传统方法提出了很多挑战,深度挖掘用户背后复杂的网络关系成为解决团伙欺诈的重中之重。关系图谱技术因为其良好的特征表现方式成为目前反欺诈领域解决团伙欺诈、信息伪造炙手可热的技术。

2我们对关系图谱初步的尝试和应用也取得了一些成果,成功打击了数百个欺诈、盗刷等黑产团伙,关系图谱的模型也在实战中得到了不断优化。

3未来我们也将持续利用各种新技术、新手段,新模型、结合互联网风控场景的特征,进一步探索更多行之有效的方法,应用到更多的领域当中。相信在未来2,3年时间里,关系图谱技术会发挥更大的价值。

 

文章转自鲲鱼科技公号

https://mp.weixin.qq.com/s/rJYrALx6CdKE_Id5AfVeZw 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。