ICML2026:让大模型多跳推理“有因有果”

论文引言

图片

在事实核查、复杂问答和科学推理等任务中,大语言模型往往需要跨越多个证据片段,逐步推导出最终结论。这类任务通常被称为多跳推理。相比单步判断,多跳推理更接近真实世界中的信息分析过程:模型不仅要找到相关证据,还要理解证据之间的关系,并判断它们如何共同支持或反驳一个结论,然而,现有大模型在这类任务上仍然面临一个核心问题:

推理链可以很长,但不一定可靠。

很多方法依赖 Chain-of-Thought 或监督微调,让模型生成看似完整的推理过程。但当任务变复杂时,这些推理链很容易出现逻辑跳跃、证据错配、冗余推导,甚至幻觉。也就是说,模型可能“讲得很顺”,但中间的依赖关系并不扎实。

基于此我们最新的工作是提出了一个新的框架:SCM-GRPO,全称为:

Grounding Multi-Hop Reasoning in Structural Causal Models via Group Relative Policy Optimization

它的核心思想可以概括为:借鉴结构因果模型的思想,为大模型多跳推理引入更清晰的证据组织方式和结构化约束。

也就是说,这项工作并不是简单地让模型生成更长的推理链,而是尝试让模型在推理时显式区分“证据事实”“中间结论”和“推导关系”,从而让多跳推理过程更加可追踪、可检查、也更不容易被冗余路径和幻觉内容干扰。

从“自由推理”到“结构启发的推理”

这篇工作的出发点很清晰:多跳事实核查并不是简单地把几个证据拼在一起,而是需要识别证据之间的依赖关系,并逐步支持或反驳一个待验证的声明。

图片

论文借鉴了 Structural Causal Model,结构因果模型,简称 SCM 中的表达方式,将多跳推理过程组织成一种结构化表示。这里的重点不是宣称模型完整学习了真实世界中的因果机制,而是利用 SCM 的思想来启发推理链的组织方式。

在这个框架下,模型需要区分三类对象:

第一类是外生变量,可以理解为从文档中直接检索到的证据事实。

第二类是内生变量,可以理解为模型基于证据推导出的中间结论和最终判断。

第三类是结构函数,用来描述某个中间结论是如何由相关证据或前序结论推导出来的。

换句话说,模型不再只是输出一段自然语言解释,而是尽量把推理过程组织成类似图结构的形式:证据节点 → 中间推理节点 → 最终结论节点。

这种设计的好处是,推理过程变得更可追踪。每一步结论都应该有明确的证据来源和依赖关系,从而减少“凭空跳跃”的推理。

为什么推理链不是越长越好?

论文中的一个重要发现是:推理链长度与准确率之间并不是简单的正相关关系。在多跳任务中,适当增加推理步骤确实有助于模型整合更多信息;但当推理链过长时,模型反而更容易引入噪声、冗余路径和幻觉内容。论文将这一现象概括为一种倒 U 型关系:

图片

推理链太短,信息整合不充分;推理链太长,逻辑复杂度和错误风险上升。这也解释了为什么很多看起来“推理很详细”的模型,并不一定更准确。真正关键的不是推理链长度,而是推理结构是否合理、证据是否充分、路径是否简洁。

用强化学习优化结构化推理

图片

为了让模型学会生成更可靠的结构化推理链,论文设计了两阶段训练流程。第一阶段是监督微调。研究者先通过教师模型构造结构化数据,让模型学习如何输出包含证据事实、中间结论、推导关系和最终答案的推理格式。

第二阶段是GRPO强化学习优化。GRPO,即Group Relative Policy Optimization,是一种基于组内比较的策略优化方法。对于同一个问题,模型会采样多个候选推理链,然后根据奖励函数对它们进行相对比较,推动模型生成更优的推理结构。论文中的奖励函数主要包含三部分:正确性奖励:最终答案是否与标准答案一致。结构奖励:推理是否更多依赖真实证据,而不是生成过多不必要的中间结论。长度奖励:推理链长度是否处在合适区间,避免过短或过长。因此,SCM-GRPO 并不是单纯追求“答案正确”,而是同时优化三个目标:答得对、结构合理、推理简洁。这里的“结构合理”,可以理解为一种受 SCM 启发的结构化约束:模型应该优先围绕证据组织推理,而不是无节制地产生中间步骤。

实验结果

论文在两个典型多跳事实核查基准上进行了评估:HoVer 和 EX-FEVER。

结果显示,SCM-GRPO 在多个设置下超过了 Direct Prediction、ProgramFC、RAG、Decompose-Verify、QACheck、Search-o1 等基线方法。

图片

在主实验中,SCM-GRPO 的整体平均表现达到 71.02%。其中,在 HoVer 的 2-hop、3-hop、4-hop 设置上分别达到 73.42%、63.15%、60.88%;在 EX-FEVER 的 2-hop 和 3-hop 设置上分别达到 82.66%、75.00%。

更值得注意的是,论文进一步的实验显示,在 Qwen3-8B 作为骨干模型时:SFT 基线准确率为 73.33%;SFT + CPO 为 71.91%;SFT + GRPO 达到 75.42%。这说明,相比传统偏好优化方法,GRPO 更适合用于这种需要平衡答案正确性、推理结构和链路长度的多跳推理场景。

更少的冗余路径,更高的证据密度

除了准确率,论文还在附录中分析了模型生成推理结构的变化。实验发现,经过 SCM-GRPO 优化后,模型更倾向于围绕真实证据构建推理,而不是不断生成复杂的中间变量和冗余路径。

例如,结构分析显示,优化后的模型显著提高了外生变量,也就是证据节点的占比;同时降低了因果路径的复杂度。附录中报告的结果表明,SCM-GRPO 对应模型的外生变量比例达到 88.7%,而 SFT 模型仅为 48.6%。在因果路径效率上,SCM-GRPO 为 0.29 paths/variable,SFT 为 0.60 paths/variable。

图片

这意味着,SCM-GRPO 并不是让模型“想得更多”,而是让模型“想得更准、更短、更有依据”。

论文还观察到,SFT 模型中变量数量与因果路径数量之间存在较强相关性,相关系数达到 0.85,说明一旦模型生成更多变量,路径复杂度也会快速膨胀。而 SCM-GRPO 的相关系数降至 0.16,表明它能够更好地解耦“证据数量”和“推理路径复杂度”。

意义

这篇论文的价值不只在于提升了多跳事实核查的准确率,更重要的是它提出了一种新的思路:

用结构因果模型启发的表示方式,约束和优化大模型的多跳推理过程。

过去,我们经常用 Chain-of-Thought 来观察模型“怎么想”。但 CoT 本身并不保证逻辑关系真实存在,也不保证每一步都有证据支撑。

SCM-GRPO 则进一步要求模型明确说明:

哪些信息来自证据?

哪些结论是推导出来的?

每一步推导依赖哪些前置信息?

最终结论如何由这些结构化依赖支撑?

这使得推理过程更具可解释性,也更容易检查和调试。

对于需要高可靠性的场景,比如事实核查、法律分析、医学证据综述、科研问答和复杂信息检索,这类受结构因果思想启发的推理方法可能具有重要意义。

SCM-GRPO 借鉴结构因果模型的思想,为多跳推理引入结构化表示,并通过 GRPO 强化学习优化推理链的正确性、结构合理性和长度,从而在提升准确率的同时减少冗余推理和幻觉风险。

它提醒我们:未来的大模型推理能力,不应该只看模型是否能生成更长的解释,而应该看它是否能够构建更可靠、更可验证、更有依据的推理结构。

从“说得像有道理”,到“每一步都有证据和结构支撑”,这或许是大模型可靠推理走向实用化的重要一步。

论文链接:https://arxiv.org/pdf/2605.01482

第一作者:步贇涵

图片

此条目发表在Paper论文, Update动态分类目录。将固定链接加入收藏夹。

发表回复