GNNs：Survey on MLNC

2026-01-27

GNNs
MLNC

Paper：Multi-label Node Classification On Graph-Structured Data

该研究深入探讨了图结构数据上的多标签节点分类问题，并发布了三个真实世界生物数据集和多标签图生成器，以促进该领域的研究和评估。

现有局限性

传统多标签分类方法的局限性

将多标签分类问题转化为多个二元分类是常见做法，但其假设标签条件独立，这在GNNs中难以保证，因为GNNs在表示学习阶段忽略了邻居节点间的标签相关性。

GNNs成功因素与多标签场景的冲突

GNNs的成功常归因于邻域特征平滑和高标签相似性（同配性）。然而，多标签网络不符合传统同配性或异配性定义。

现有基准数据集的不足

多标签节点分类研究不足也源于基准数据集稀缺，如OGB-PROTEINS是OGB中唯一的多标签数据集，但其测试集约90%节点无标签，且使用AUROC指标导致性能评估被夸大。

数据集分析

标签同配性

传统：图中同亲边缘的比例。如果一条边缘连接了两个具有相同标签的节点，则该边缘被视为同亲边缘。

图中所有连接节点标签集Jaccard相似度的平均值，量化了邻居节点基于标签分布的一阶相似性：

\[h = \frac{1}{|\mathcal{E}|} \sum_{(i,j) \in \mathcal{E}} \frac{|\ell(i) \cap \ell(j)|}{|\ell(i) \cup \ell(j)|}\]

跨类邻域相似性

不同类别节点邻域标签分布的余弦相似度平均值，超越邻居节点标签相似性的二阶指标，量化任意两个节点邻域间的相似性

\[s(c, c') = \frac{1}{|\mathcal{V}_c||\mathcal{V}_{c'}|} \sum_{\substack{i \in \mathcal{V}_c, j \in \mathcal{V}_{c'} \\ i \neq j}} \frac{1}{|\ell(i)||\ell(j)|} \frac{\mathbf{d}_i \cdot \mathbf{d}_j}{\|\mathbf{d}_i\| \|\mathbf{d}_j\|}\]

本文贡献

构建PCG、HuMLoc和EUKLoc数据集

每个蛋白质都被建模为一个节点。节点标签是相应蛋白质的标签。边代表从公共数据库中检索到的两个蛋白质之间的已知相互作用。

构建多标签图生成器

便于构建具有可调属性的数据集。在多维特征空间中定义多个相互重叠的子球体，每个子球体代表一个标签，随机分布的节点因落入不同的重叠区域而获得多个标签；随后，基于节点间标签向量的汉明距离，利用一个包含可调参数的逻辑概率模型来决定节点间是否产生连接，从而生成具有可控结构特性的合成图数据。

\[p_{ij} = \frac{1}{1 + \left[b^{-1} d(\mathbf{y}_i, \mathbf{y}_j)\right]^\alpha}\]

大规模比较研究与基准发布

比较8种方法在7个真实世界和2组合成数据集上的性能

date727's blog