当前位置: 首页 > news >正文

GCFExplainer: Global Counterfactual Explainer for Graph Neural Networks

论文信息

论文标题:GCFExplainer: Global Counterfactual Explainer for Graph Neural Networks
论文作者:
论文来源:ICLR 2023
论文地址:link
论文代码:link

Abstract

1. GNN 的应用场景与可解释性需求

1)广泛应用领域

  明确图神经网络(GNN)在计算生物学(如蛋白质功能预测、药物分子活性判断)、自然语言处理(如文本语义依赖建模)、计算机安全(如网络攻击路径分析)等领域的实用价值,说明其已成为解决结构化数据任务的核心模型之一。

2)可解释性的必要性

  指出 GNN 本质是 “黑箱模型”—— 虽能输出高精度预测结果,但无法直观呈现 “为何做出该预测”。随着 GNN 在药物发现、医疗诊断等高风险领域的应用,解释其预测逻辑逐渐成为刚需:既有助于开发者识别模型缺陷(如对特定结构的偏见),也能增强用户对模型的信任。

2. 反事实推理的核心逻辑

  为解决 GNN 可解释性问题,文中聚焦 “反事实推理” 这一关键思路,其核心定义与目标如下:
  • 核心逻辑:通过对输入图进行最小化修改(如增删单条边、修改单个节点标签),使 GNN 的预测结果从 “原类别” 变为 “目标类别”,进而通过 “修改内容” 反推模型关注的关键特征。
  • 举例说明:若 GNN 判定某分子为 “致突变(非期望类)”,反事实推理需找到 “仅修改少量原子 / 化学键,使分子变为‘非致突变(期望类)’” 的方案,该方案即 “反事实示例”,可解释 “哪些结构导致分子致突变”。

3. 现有反事实解释方法的核心局限

  明确现有方法仅支持 “实例级局部推理”,存在两大关键缺陷,这也是本文研究的出发点:

局限类型
具体表现
实际影响
无法提供全局追索策略
仅能为单个输入图生成专属反事实示例,无法总结适用于 “一类图” 的通用规则
如药物发现中,无法得出 “所有含某类官能团的分子,需如何修改以具备抗癌活性”,开发者需逐一分析每个分子,效率极低
造成人类认知过载
反事实示例数量随数据集规模(可能达数千至数百万图)线性增长
以含 10 万图的分子数据集为例,若每个图对应 1 个反事实示例,10 万条结果远超人类单次可理解、可分析的信息容量,失去 “解释” 的本质意义

4. 本文核心目标与解决方案

1)研究目标

  突破局部推理局限,实现 GNN 的 “全局反事实解释”:即找到少量(规模可控)、具代表性的反事实图集合,使其能为 “绝大多数输入图” 提供有效反事实解释(无需为每个输入图单独生成示例)。

2)核心方案:GCFExplainer 算法

  提出 GCFExplainer 作为解决方案,其核心设计思路由 “两大关键技术” 支撑,确保能高效找到全局反事实集合:
  • 技术 1:基于图编辑图的顶点强化随机游走(VRRW)
    • 先构建 “编辑图”(元图):将输入图及 “经单步编辑生成的潜在反事实图” 作为节点,边代表 “两图可通过单步编辑(增删节点 / 边、改标签)转化”,形成结构化搜索空间;
    • 再执行 VRRW:通过 “强化访问‘覆盖输入图多、与已有示例差异大’的节点”,从海量潜在反事实图中筛选出 “覆盖度高、多样性强” 的候选集,避免盲目搜索。
  • 技术 2:贪心总结策略
    • 从候选集中迭代选择 “加入后,能最大程度提升‘被解释输入图比例(覆盖度)’” 的反事实图,最终形成规模固定(如 10 个)的全局反事实集合,确保 “数量少、效果优”。

5. GCFExplainer 的实验性能优势

  基于真实图数据集(如分子图、蛋白质图)的实验,验证 GCFExplainer 显著优于现有主流局部反事实解释器,具体优势体现在 4 个维度:

性能维度
具体表现
核心价值
追索覆盖度提升
较当前最优局部方法(如 RCExplainer),覆盖度提升 46.9%
用相同数量的反事实图,能解释更多输入图,全局解释能力更强
追索成本降低
较最优局部方法,输入图与对应反事实图的 “编辑距离(修改量)” 降低 9.5%
反事实示例的 “修改量更小”,更符合 “最小化扰动” 原则,解释的可信度更高
与数据集特性一致性更强
生成的反事实图更贴合输入图的固有特性(如分子图的连通性、蛋白质图的结构完整性)
避免生成 “不符合真实场景” 的反事实示例(如非连通的分子图,现实中无法存在),提升解释的实用性
抗 adversarial 攻击能力更优
即使输入图受 “随机边翻转(如误加 / 误删少量边)” 干扰,GCFExplainer 仍能保持稳定的解释性能
在数据存在噪声或恶意攻击的场景下(如医疗数据采集误差、网络安全中数据被篡改),解释结果仍可靠

6. 扩展方案:K-GCFExplainer

  针对 “输入图存在明显聚类结构” 的场景(如分子数据集中,部分分子含 “羟基” 官能团、部分含 “羰基” 官能团,形成天然簇),提出 GCFExplainer 的扩展算法 K-GCFExplainer:
    • 核心改进:在 GCFExplainer 基础上加入 “图聚类组件”,先通过 K-medoids 算法(基于图编辑距离)将输入图分为 K 个簇,再对每个簇独立运行 GCFExplainer 生成候选集,最后合并所有簇的候选集并贪心总结;
    • 性能优势:实验显示,在 4 个数据集的 3 个中,K-GCFExplainer 性能优于原始 GCFExplainer,且支持 “分簇并行计算”,大幅提升对大规模数据集的处理效率(scalability)。

 

 

 

http://www.agseo.cn/news/196/

相关文章:

  • Spring Boot 笔记
  • 闲话 25.9.8
  • The 2025 ICPC Asia East Continent Online Contest (I)
  • Ubuntu22.04下Docker的安装Docker镜像源问题解决方法
  • 使用通义灵码快速生成换装、瘦身程序 #Qwen3-Coder挑战赛# - yi
  • 软件工程第一次作业-tanglei
  • xtrabackup 8.0日常管理
  • 解决 .NET 7 在 Linux 上获取程序集的问题
  • 从KPI管理转向更困难的OKR管理的企业都在想什么
  • MyBatis-Plus 实现PostgreSQL数据库jsonb类型的保存与查询
  • katalon常用定位元素Xpath合集
  • 【项目实战】基于Hi3861的鸿蒙智能小车(循迹、超声波避障、远程控制、语音控制、4G定位)有教程代码
  • (期望)名字(name)
  • 新手小白如何快速入门PostgreSQL
  • Day03 课程
  • MathType7下载安装2025最新下载+安装+教程(附安装包)
  • Linux Strace 系统调用工具详解与企业应用
  • 想进大厂?从学习圈子里的“管理术语”开始
  • 配电网二进制粒子群重构(BPSO)
  • 模板 AE PR 达芬奇 剪影
  • 如何自动删除重复执行的任务?
  • 开始更新第一篇
  • springboot~SpringData自定义Repository的正确方式
  • Agisoft Metashape Professional 2.2.2.21069 多视点三维建模设计
  • Linux之进程状态
  • 2. O(NlogN)的排序
  • 【Python】使用matplotlib绘图,显示中文字符。
  • React-手写支持多文件、并行上传、串行上传、分片上传、单文件上传、失败自动重试、自动上传/手动按钮上传切换
  • Linux服务器中代码仓库(gitea+drone)搭建
  • 二分查找