图神经网络代码(图论及其应用)

本文介绍了ICLR 2020论文《Measuring and Improving the Use of GraphInformation in Graph Neural Networks》，作者是香港中文大学计算机系硕士二年级的jqdsw。

语句

篇末

论文地址： https://开放式review.net/pdf？ id=rkeIIkHKvS近年来，图形神经网络(GNN )在社交网络、知识图谱、推荐系统乃至生命科学等领域得到了越来越广泛的应用。但是，在复杂的图数据中，很难有效地利用实体间的相互依存关系。在清华计算机系主办的AI Time PhD直播间，香港中文大学计算机系的硕士2年级学生jqdsw分享了自己团队在被称为“深度学习方面的峰会”的——ICLR(2020 )上发表的研究成果。让我们来看看等待中的棒棒糖是如何巧妙地利用节点的“邻里关系”来选择图形数据，改善图形神经网络的。

背景a )图数据和数据分类图是强大的数据结构，可以简单地表示实体(即节点)之间的各种关系)即边缘)。

实体可以是社交网络中的用户个体，也可以是分子结构图中的原子。

关系可以是社交网络中的用户之间的朋友关系、相似性关系等，或者分子结构图中的原子之间的相互关系。

一般在图数据中，节点(实体)的选择是固定的，但边的构建方法多种多样。例如，在社交网络中，可以基于用户的相似性或者将该交互和朋友关系构筑为边缘来构成网络。

因此，在分布比较均匀的原始数据分类困难的情况下，如果能够基于某种额外的关系信息“拉近”同种点之间的距离，从而有效地调整数据分布，则分类的边界选择变得容易，其任务表现也良好地提高了性能。

b )图形神经网络图形神经网络(GNN )广泛应用于图像数据的显示学习。它可以利用图中的关系信息捕捉节点近邻的丰富特征，提高基于下游图数据的任务表示。

通用的GNN框架的构建方法如下。

Step 1:使用聚合器(Aggregate )来收集邻居的特征。

由于各节点的邻接数不同，因此在该步骤中可以将任意数量的邻接点的特征向量合并成固定长度的向量。

聚合的方法：均值、求和、加权求和…

从噪声消除的角度来看：放大mean (可以抑制噪声)=weighted sum pooling sum )噪声)。

Step 2:使用组合器将聚合的固有向量和节点自身的固有向量组合成一个新的固有向量。

组合方法： concatenate、mean、weighted sum…

从保持信息的能力来看： concatenate (乘以参数矩阵决定向量中有用的部分) mean=weighted sum (加权求和)信息有一定的失真) ) ) ) ) ) ) ) ) ) ) ) ) )。

实际上，并非所有节点附近都包含有关特定任务的信息。因此，数据关系可以提供正面的信息，也可以引起负面的干扰！例如，在图中，如果拉近不同种类的点之间的距离，分类问题反而会变得复杂。这样利用多余的信息，会产生相反的效果！

发生了问题：什么样的图数据(关系)适合现在的图神经网络？

答：通过利用数据关系提高性能与原图数据的节点从邻居那里获取的信息的“数量”和“质量”有关！为此，可以用2种平滑度测量方法测量这2个方面！

2个平滑度测定值a )背景： KL分散度(或信息增益) )

已知对s (探测)后的原系统c ) c (上下文)的信息增益。一般来说，c和s的欧风距离越大，两者的特征越不相似，相邻节点带来的信息增益越大，从而导致节点特征的变化。

b )背景：图像信号处理后的平滑度

Lambda (傅立叶变换的频率)小时，表示信号的频率低、平滑度高。

Lambda较大表示信号频率较高，不平滑(平滑度较低)。

toutiaoimg.com/origin/pgc-image/RzvkJekASGeRq7?from=pc">

c）信息度量一：特征平滑度

对图上所有节点，算出每个节点与邻居节点的距离之和的平方，然后对所有节点进行加和，取曼哈顿距离，最后除以特征维度和边的数目，得到特征平滑度。数学证明KL散度与特征平滑度成正比，即信息增益的大小与特征平滑度成正相关。

d）信息度量二：标签平滑度针对图中所有的边，计算连接不同类别节点的边的比例，得到取值范围为0-1的值。直观上，标签平滑度为零时，只有同类数据会被“拉近“。

注意：现实中无法获知测试集的标签信息，因此可用训练集已知的标签平滑度来近似真实的位置的标签平滑度。

3 神奇的CS-GNN模型

于是，jqdsw提出了一种新的模型CS-GNN，该模型利用这两个平滑度指标选择性地聚集邻居信息，以放大有用信息，减少负干扰！

注意这里存在一个tradeoff：尽可能地选同类别（保证信息增益的质量）的不相似的（提高信息增益的大小）邻居。

实验结果证明了的方法对于给定任务测量图形的平滑度值的有效性，并且CS-GNN能够获得更多有用的信息，以实现优于现有方法的性能！

答疑互动问：result部分的OOM是指什么？该程序跑起来，需要什么样的服务器？答：一般来说对于图数据，会经常有OOM（Out of memory）的情况出现。一般一个16G的卡跑带attention的GNN节点数不能超过10W。过大的话就只能通过邻居采样等方法优化，或者是持续用IO几个batch读一次。问：有点好奇特征平滑度和标签平滑度有特定阈值吗？比如达到什么范围时图数据的效果最好？答：因为这两个值是信息增益的一个近似，很难去用他们得到一些精确的结论。不过还是可以用这两个值帮助大家选择图数据或者理解改进图神经网络的。