ICML2026：让大模型多跳推理“有因有果” |

论文引言

在事实核查、复杂问答和科学推理等任务中，大语言模型往往需要跨越多个证据片段，逐步推导出最终结论。这类任务通常被称为多跳推理。相比单步判断，多跳推理更接近真实世界中的信息分析过程：模型不仅要找到相关证据，还要理解证据之间的关系，并判断它们如何共同支持或反驳一个结论，然而，现有大模型在这类任务上仍然面临一个核心问题：

推理链可以很长，但不一定可靠。

很多方法依赖 Chain-of-Thought 或监督微调，让模型生成看似完整的推理过程。但当任务变复杂时，这些推理链很容易出现逻辑跳跃、证据错配、冗余推导，甚至幻觉。也就是说，模型可能“讲得很顺”，但中间的依赖关系并不扎实。

基于此我们最新的工作是提出了一个新的框架：SCM-GRPO，全称为：

Grounding Multi-Hop Reasoning in Structural Causal Models via Group Relative Policy Optimization

它的核心思想可以概括为：借鉴结构因果模型的思想，为大模型多跳推理引入更清晰的证据组织方式和结构化约束。

也就是说，这项工作并不是简单地让模型生成更长的推理链，而是尝试让模型在推理时显式区分“证据事实”“中间结论”和“推导关系”，从而让多跳推理过程更加可追踪、可检查、也更不容易被冗余路径和幻觉内容干扰。

从“自由推理”到“结构启发的推理”

这篇工作的出发点很清晰：多跳事实核查并不是简单地把几个证据拼在一起，而是需要识别证据之间的依赖关系，并逐步支持或反驳一个待验证的声明。

论文借鉴了 Structural Causal Model，结构因果模型，简称 SCM 中的表达方式，将多跳推理过程组织成一种结构化表示。这里的重点不是宣称模型完整学习了真实世界中的因果机制，而是利用 SCM 的思想来启发推理链的组织方式。

在这个框架下，模型需要区分三类对象：

第一类是外生变量，可以理解为从文档中直接检索到的证据事实。

第二类是内生变量，可以理解为模型基于证据推导出的中间结论和最终判断。

第三类是结构函数，用来描述某个中间结论是如何由相关证据或前序结论推导出来的。

换句话说，模型不再只是输出一段自然语言解释，而是尽量把推理过程组织成类似图结构的形式：证据节点 → 中间推理节点 → 最终结论节点。

这种设计的好处是，推理过程变得更可追踪。每一步结论都应该有明确的证据来源和依赖关系，从而减少“凭空跳跃”的推理。

为什么推理链不是越长越好？

论文中的一个重要发现是：推理链长度与准确率之间并不是简单的正相关关系。在多跳任务中，适当增加推理步骤确实有助于模型整合更多信息；但当推理链过长时，模型反而更容易引入噪声、冗余路径和幻觉内容。论文将这一现象概括为一种倒 U 型关系：

推理链太短，信息整合不充分；推理链太长，逻辑复杂度和错误风险上升。这也解释了为什么很多看起来“推理很详细”的模型，并不一定更准确。真正关键的不是推理链长度，而是推理结构是否合理、证据是否充分、路径是否简洁。

用强化学习优化结构化推理

为了让模型学会生成更可靠的结构化推理链，论文设计了两阶段训练流程。第一阶段是监督微调。研究者先通过教师模型构造结构化数据，让模型学习如何输出包含证据事实、中间结论、推导关系和最终答案的推理格式。

第二阶段是GRPO强化学习优化。GRPO，即Group Relative Policy Optimization，是一种基于组内比较的策略优化方法。对于同一个问题，模型会采样多个候选推理链，然后根据奖励函数对它们进行相对比较，推动模型生成更优的推理结构。论文中的奖励函数主要包含三部分：正确性奖励：最终答案是否与标准答案一致。结构奖励：推理是否更多依赖真实证据，而不是生成过多不必要的中间结论。长度奖励：推理链长度是否处在合适区间，避免过短或过长。因此，SCM-GRPO 并不是单纯追求“答案正确”，而是同时优化三个目标：答得对、结构合理、推理简洁。这里的“结构合理”，可以理解为一种受 SCM 启发的结构化约束：模型应该优先围绕证据组织推理，而不是无节制地产生中间步骤。

实验结果

论文在两个典型多跳事实核查基准上进行了评估：HoVer 和 EX-FEVER。

结果显示，SCM-GRPO 在多个设置下超过了 Direct Prediction、ProgramFC、RAG、Decompose-Verify、QACheck、Search-o1 等基线方法。

在主实验中，SCM-GRPO 的整体平均表现达到 71.02%。其中，在 HoVer 的 2-hop、3-hop、4-hop 设置上分别达到 73.42%、63.15%、60.88%；在 EX-FEVER 的 2-hop 和 3-hop 设置上分别达到 82.66%、75.00%。

更值得注意的是，论文进一步的实验显示，在 Qwen3-8B 作为骨干模型时：SFT 基线准确率为 73.33%；SFT + CPO 为 71.91%；SFT + GRPO 达到 75.42%。这说明，相比传统偏好优化方法，GRPO 更适合用于这种需要平衡答案正确性、推理结构和链路长度的多跳推理场景。

更少的冗余路径，更高的证据密度

除了准确率，论文还在附录中分析了模型生成推理结构的变化。实验发现，经过 SCM-GRPO 优化后，模型更倾向于围绕真实证据构建推理，而不是不断生成复杂的中间变量和冗余路径。

例如，结构分析显示，优化后的模型显著提高了外生变量，也就是证据节点的占比；同时降低了因果路径的复杂度。附录中报告的结果表明，SCM-GRPO 对应模型的外生变量比例达到 88.7%，而 SFT 模型仅为 48.6%。在因果路径效率上，SCM-GRPO 为 0.29 paths/variable，SFT 为 0.60 paths/variable。

这意味着，SCM-GRPO 并不是让模型“想得更多”，而是让模型“想得更准、更短、更有依据”。

论文还观察到，SFT 模型中变量数量与因果路径数量之间存在较强相关性，相关系数达到 0.85，说明一旦模型生成更多变量，路径复杂度也会快速膨胀。而 SCM-GRPO 的相关系数降至 0.16，表明它能够更好地解耦“证据数量”和“推理路径复杂度”。

意义

这篇论文的价值不只在于提升了多跳事实核查的准确率，更重要的是它提出了一种新的思路：

用结构因果模型启发的表示方式，约束和优化大模型的多跳推理过程。

过去，我们经常用 Chain-of-Thought 来观察模型“怎么想”。但 CoT 本身并不保证逻辑关系真实存在，也不保证每一步都有证据支撑。

SCM-GRPO 则进一步要求模型明确说明：

哪些信息来自证据？

哪些结论是推导出来的？

每一步推导依赖哪些前置信息？

最终结论如何由这些结构化依赖支撑？

这使得推理过程更具可解释性，也更容易检查和调试。

对于需要高可靠性的场景，比如事实核查、法律分析、医学证据综述、科研问答和复杂信息检索，这类受结构因果思想启发的推理方法可能具有重要意义。

SCM-GRPO 借鉴结构因果模型的思想，为多跳推理引入结构化表示，并通过 GRPO 强化学习优化推理链的正确性、结构合理性和长度，从而在提升准确率的同时减少冗余推理和幻觉风险。

它提醒我们：未来的大模型推理能力，不应该只看模型是否能生成更长的解释，而应该看它是否能够构建更可靠、更可验证、更有依据的推理结构。

从“说得像有道理”，到“每一步都有证据和结构支撑”，这或许是大模型可靠推理走向实用化的重要一步。

论文链接：https://arxiv.org/pdf/2605.01482

第一作者：步贇涵

ICML2026：让大模型多跳推理“有因有果”

发表回复取消回复

近期文章

ICML2026：让大模型多跳推理“有因有果”

发表回复 取消回复

近期文章

发表回复取消回复