GNNs:Survey on MLNC

2026-01-27

Paper:Multi-label Node Classification On Graph-Structured Data

该研究深入探讨了图结构数据上的多标签节点分类问题,并发布了三个真实世界生物数据集和多标签图生成器,以促进该领域的研究和评估。

现有局限性

传统多标签分类方法的局限性

将多标签分类问题转化为多个二元分类是常见做法,但其假设标签条件独立,这在GNNs中难以保证,因为GNNs在表示学习阶段忽略了邻居节点间的标签相关性。

GNNs成功因素与多标签场景的冲突

GNNs的成功常归因于邻域特征平滑和高标签相似性(同配性)。然而,多标签网络不符合传统同配性或异配性定义。

现有基准数据集的不足

多标签节点分类研究不足也源于基准数据集稀缺,如OGB-PROTEINS是OGB中唯一的多标签数据集,但其测试集约90%节点无标签,且使用AUROC指标导致性能评估被夸大。

相关工作:针对图结构数据进行多标签节点分类

节点嵌入

给每个节点生成一个固定长度的数字向量,使用查找表输入节点 ID 查到它的向量。在图中关系越近、越相似的节点,它们在向量空间里的距离也越近。

相似性判定突出的方法是基于随机漫步的方法。通过节点在随机漫步中的共现频率来定义节点间的相似性。eg. DeepWalk

卷积神经网络

先聚合局部邻域的特征信息,然后将提取的特征向量与标签嵌入融合,生成最终的节点嵌入。 eg. LANC

图神经网络

聚合局部邻域的特征信息,更新节点自己的特征,多次递归,最后一层采用 sigmoid 层来预测类概率。区别在于聚合的实现方式。

标签传播与图神经网络的结合

GNN传递特征,LPA传递标签。通过知识蒸馏或正则化来提升GNN性能。

数据集分析

标签同配性

传统:图中同亲边缘的比例。如果一条边缘连接了两个具有相同标签的节点,则该边缘被视为同亲边缘。

图中所有连接节点标签集Jaccard相似度的平均值,量化了邻居节点基于标签分布的一阶相似性:

\[h = \frac{1}{|\mathcal{E}|} \sum_{(i,j) \in \mathcal{E}} \frac{|\ell(i) \cap \ell(j)|}{|\ell(i) \cup \ell(j)|}\]

跨类邻域相似性

不同类别节点邻域标签分布的余弦相似度平均值,超越邻居节点标签相似性的二阶指标,量化任意两个节点邻域间的相似性

\[s(c, c') = \frac{1}{|\mathcal{V}_c||\mathcal{V}_{c'}|} \sum_{\substack{i \in \mathcal{V}_c, j \in \mathcal{V}_{c'} \\ i \neq j}} \frac{1}{|\ell(i)||\ell(j)|} \frac{\mathbf{d}_i \cdot \mathbf{d}_j}{\|\mathbf{d}_i\| \|\mathbf{d}_j\|}\]

本文贡献

构建PCG、HuMLoc和EUKLoc数据集

每个蛋白质都被建模为一个节点。节点标签是相应蛋白质的标签。边代表从公共数据库中检索到的两个蛋白质之间的已知相互作用。

构建多标签图生成器

便于构建具有可调属性的数据集。在多维特征空间中定义多个相互重叠的子球体,每个子球体代表一个标签,随机分布的节点因落入不同的重叠区域获得多个标签;随后,基于节点间标签向量的汉明距离,利用一个包含可调参数的逻辑概率模型来决定节点间是否产生连接,从而生成具有可控结构特性的合成图数据。

\[p_{ij} = \frac{1}{1 + \left[b^{-1} d(\mathbf{y}_i, \mathbf{y}_j)\right]^\alpha}\]

大规模比较研究与基准发布

比较8种方法在7个真实世界和2组合成数据集上的性能