KDD 2026：从打分到符号化失败诊断，让大模型推理”可诊断、可解释” |

北京理工大学、中关村学院、中国科学院自动化研究所

KDD会议简介

KDD（ACM SIGKDD Conference on Knowledge Discovery and Data Mining）是数据挖掘与知识发现领域的国际顶级学术会议，由 ACM 旗下的 SIGKDD 专委会主办，自 1999 年起每年举办一届，被中国计算机学会（CCF）列为 A 类推荐会议。

作为数据科学与大数据生态的风向标，KDD 专注于“从海量数据中发现有价值知识”的全流程研究，议题覆盖数据挖掘算法、机器学习、深度学习、图神经网络、推荐系统及异常检测等前沿方向，同时也高度重视在生物信息、金融风控及社会网络等领域的落地应用。

该会议学术门槛极高，主会论文录用率常年维持在 15%~20% 之间，与 ICML、NeurIPS 并列为人工智能与数据科学领域的三大顶尖会议。

论文宗旨

大模型 (LLM) 已经能做出像模像样的多步推理。但越来越多研究发现一个尴尬现象：答案对了，思维链却未必成立——中间步骤跳跃、隐藏假设、忽略边界条件，结果”碰巧对”。在医疗、金融、科研助理这种高风险场景里，”偶尔答对”和”过程可信”完全是两件事。

现有验证手段都难以回答”为什么错”：Answer Matching 只给 1 bit；LLM-as-Judge 主观难审计；Reward / PRM 是一个标量；已有的神经符号方法又分不清”翻译失败“和”推理缺陷“。

来自 北京理工大学 NLPIR 实验室 与 中关村学院 / 中国科学院自动化研究所 的联合研究团队，在论文 《SymDiag: Explainable Diagnosis for LLM Reasoning via Neuro-Symbolic Verification》（KDD 2026）中提出了一种全新的范式：把推理验证重新定义为”可解释的失败诊断”——不仅指出”哪一步错”，更给出可被符号求解器独立校验的证据，并据此驱动迭代修复。

从”打分”到”诊断”

这项工作的出发点很朴素：多轮事实核查时，每一步证据并不是简单地堆在一起，而是有层次、依赖、约束关系。光看最终答案、或者请另一个 LLM 来打分，都看不见这些结构。

论文借鉴神经符号方法的思路，把 CoT 编译成统一签名下的符号程序，再交给 SWI-Prolog 这样的求解器去做步级 SAT / 蕴含校验。

这意味着——当你说”这一步错了”，你能拿出一份反例 / Unsat 核心 / 缺失前提，而不是模糊的”我觉得不太对”。

关键挑战：是真错，还是翻译噪声？

把自然语言翻成形式化语言再求解，这条路其实不新。Logic-LM、SymbCoT、Aristotle 都尝试过。但所有这条路上的方法都被同一个问题困扰：当求解器报”违规”时，我们到底是抓住了一个真实推理缺陷？还是只是翻译过程产生的噪声？

当前的核心难点是如果不能区分二者，所有反馈都会被污染——验证器越严格，反而错得越离谱。一个好的诊断系统，必须在翻译错误 (TranslationError) 与 推理错误 (ReasoningError) 之间画出一条可靠的界。

SymDiag 的破局点是自审计机制 (Self-Auditor)：对同一段 CoT 同时生成两份独立的符号编码——Formal Translation 走标准翻译，Critical Restatement 做更严格的复述再编译。两条路径相互”作证”，能暴露原文里被掩盖的隐藏假设。

如果某个”违规”在最小化、文本一致的改写下就消失了——那它是翻译错误；否则才会被认定为真正的推理错误。只有通过审计的状态才会进入下一阶段的步级验证。

SymDiag 框架：四件套构成的诊断闭环

① 双分支神经符号生成器：同一条 CoT 被编译为两份独立的形式化程序，两条路径相互校验，降低单点翻译偏差。

② Self-Auditor（核心创新）：用跨分支一致性检查 + 轻量符号正则化测试，把每一处”违规”明确归因到TranslationError 或 ReasoningError。

③ 步级符号验证：对每一步状态 Si = {Pi, Ii, Ci}（前提 / 推断 / 约束）执行 SAT 与局部蕴含检查，输出可校验证据。

④ 诊断引导的修复：根据失败的影响范围 (scope) 选择”局部补丁”或”全局重写”，形成诊断 → 修复 → 再诊断的闭环。

一句话总结：SymDiag 不是更好的 verifier，也不是更好的 reward，而是一个可解释的神经符号诊断系统——它定位错误、归因原因，并以可被独立校验的证据驱动修复。

实验：跨四大领域的全面验证

研究团队构建了一个覆盖数学 / 逻辑 / 科学 / 通用推理的统一诊断数据集，自动构建样本达 437,792 条，并人工审核出 240 条高质量黄金集。

不忠实推理检测：SymDiag 在所有 8 个 benchmark 上均取得 F1 最优，整体 F1 达到 70.7。在 AR-LSAT / LogiDed / MMLU 这种”答案对、过程错”高占比的数据集上优势最大——基线在这里几乎完全失效。

多轮修复：Answer Matching 几乎无改善；Reward / LogicReward 的标量信号嘈杂；LLM-as-Judge 早期略有提升但很快饱和。只有 SymDiag 在每一轮都领先所有基线——并且增长更陡、不饱和。

错误归因：模型越大，”幻觉规则”越严重

借助 SymDiag 的步级诊断，研究团队第一次系统刻画了不同规模模型的”失败画像”：

小模型 (Llama-3.2-1B / Qwen3-1.7B)：算术错误 35% / 30%、前提缺失 30% / 28%——符号操控与前提追踪不稳。

中等模型 (Qwen3-8B)：低层错误下降，非蕴含推理 22%、约束忽略 25% 上升。

大模型 (GPTOSS-20B)：算术只剩 5%，但规则误用激增到 32%、类型错配 20%——更强的抽象能力反而带来“过度泛化”风险。

这一发现意味着：推理监督应当模型规模感知——小模型需要约束强化与前提补全，大模型则需要防范规则幻觉。同一种 reward，对大小模型完全是两种药。

关键数字

经过 3 轮 Self-Auditor 反馈，翻译错误从 20.1% 降到接近 0，执行失败从 5.5% 降到 1% 以下。证据表明：显式 SAT / 蕴含检查是诊断准确性的主驱动；Self-Auditor 则是诊断可靠性的关键开关。

意义

这篇论文的价值不仅在于”提升了多跳事实核查的准确率”，更在于提出了一种新的范式：

用结构化的失败诊断取代笼统的打分，约束和优化大模型的多跳推理过程。过去我们经常用 Chain-of-Thought 来观察模型”怎么想”，但 CoT 本身并不保证逻辑关系真正存在，也不保证每一步都有证据支撑。

SymDiag 给出了进一步要求模型明确说明：

哪些信息来自证据？
哪些结论是推导出来的？
每一步推导依赖哪些前置信息？
最终结论如何由这些结构化证据支撑？

这使得推理过程更具可解释性，也更容易检查与调试。对于需要可靠性的场景，比如事实核查、医学证据综述、科研问答和复杂信息检索，这类对结构因果模型的推理方式可能具有重要意义。

SymDiag 提供的翻译/推理错误解耦机制，也为类似工作提供了一个新思路——可靠的步级符号推理不在于把翻译做得更”花哨”，而在于在出错的时候，能让”翻译”和”逻辑”两条腿同时被检查、修复。

它提醒我们：未来的大模型推理能力，不应该只看最终答案是否生成长长的解释，而应该看是否能够构建更可靠、更可验证、更有依据的推理结构。

从”说得像有道理“到”每一步都有证据和结构支撑“，这或许是大模型可靠推理走向真实部署的关键。

论文标题：

SymDiag: Explainable Diagnosis for LLM Reasoning via Neuro-Symbolic Verification

录用会议：

ACM SIGKDD 2026 (KDD ’26) · Research Track

关键词：

LLM · Diagnosis · Symbolic · Faithful Reasoning · Explainability

论文链接：

暂未公开（camera-ready 后将提供）

代码 / 数据：

camera-ready 后开源

第一作者：崔文耀

KDD 2026：从打分到符号化失败诊断，让大模型推理”可诊断、可解释”

发表回复取消回复

近期文章

KDD 2026：从打分到符号化失败诊断，让大模型推理”可诊断、可解释”

发表回复 取消回复

近期文章

发表回复取消回复