ACL 2026 Findings：拒绝盲目采样，让大模型推理“精打细算”且“优胜劣汰”

论文引言

在解决复杂数学和逻辑问题时，测试时扩展（Test-Time Scaling, TTS）已经成为提升大语言模型推理能力的核心驱动力。这类方法通常遵循一个直观的逻辑：多采样几条推理路径，然后选出最好的一条。然而，现有大模型在实际应用这类系统时，面临着一个核心的资源与效率瓶颈：盲目的大批量采样，既昂贵又低效。

目前主流的方法（如 Best-of-N）大多依赖“一次性生成，保留少数（Sample once and keep few）”的粗暴策略。这意味着无论题目难易，模型都会死板地消耗固定的算力，导致大量计算资源浪费在注定被丢弃的低质量候选答案上。更棘手的是，为了从这些庞杂的候选中挑出正确答案，现有的主流框架严重依赖外部训练的奖励模型（ORM/PRM），这不仅需要海量的细粒度人工标注数据，还带来了沉重的部署与推理延迟负担。

基于此，我们最新的工作提出了一个新的框架：ConMA ，全称为： Confidence-Guided Kernel Sampling with Multi-Stage Aggregation for LLM Reasoning

它的核心思想可以概括为：彻底摒弃外部验证器，利用大模型内在的置信度信号，将静态的算力预算重组为“过滤-探索-聚合”的动态演化闭环。

也就是说，这项工作不再让模型“蒙着眼睛盲目海投”，而是赋予了它基于自身概率信号的“自审视”能力。通过置信度核心采样（CKS）尽早剔除劣质噪音，利用存活的高质量路径激发多样性探索（DSE），最后将提纯过程转化为多项选择题（MCQ）进行多轮单选迭代（MSA）。它能够根据题目难度自适应地提前停止——在简单题上仅需少量采样即可输出，在难题上则进行深度的逻辑修正。最终，我们在无需任何外部奖励模型的情况下，让仅有 4B 参数的 Qwen3-4B 模型在 AIME 2025 上达到了 80% 的准确率，并且平均每题仅消耗 18 次采样，大幅超越了 32B 级别的大模型并极大地降低了推理成本。

ConMA 激发了候选集的演化。相比于传统方法在单次采样中浪费大量资源，ConMA 在固定算力预算下，通过迭代修剪低质量路径、从幸存者中生成多样化探索，并利用模型内在的选择能力对下一轮候选集进行优化。

近年来，大语言模型（LLM）的快速进步不仅仅依赖于扩展模型自身的参数量，推理阶段的算力分配（Test-Time Scaling, TTS）也正成为提升复杂推理能力的关键驱动力。通过在推理预算内采样并聚合多条推理轨迹，小模型也能展现出媲美更大规模模型的表现。

近日，研究团队提出了ConMA（Confidence-guided Multi-stage Aggregation）：一种免训练、无需外部验证器的即插即用TTS 框架。在AIME 2025 挑战集上，搭载该框架的Qwen3-4B模型成功拿下了80.0%的准确率，远超同等算力下的其他强大基线方法，甚至越级打败了32B级别的模型。该工作目前已被ACL 2026 Findings接收。

传统 TTS 困境：

为什么现有方法不够高效？

当前主流的 TTS 框架，往往依赖于基于外部验证器（Reward Models）的高级搜索策略，或者主流的基于采样的方法（例如 Best-of-N 和自一致性多数投票）。尽管取得了经验上的成功，但这种“单次大批量采样（sample once and keep few）”的范式面临着结构性的局限：

（1）昂贵的外部监督：依赖辅助的奖励模型需要海量细粒度的监督数据进行训练，同时在部署和推理时带来了不可忽视的额外开销。

（2）忽视中间高质量轨迹：独立生成轨迹的同质化特征，导致系统无法复用中间高质量的推理线索。搜索空间被无引导的随机性主导，产生大量冗余或高度聚集的解。

（3）计算资源分配僵化：不区分难度的“单次采样”策略，将大量算力浪费在注定被丢弃的低质量候选答案上。这导致系统在简单任务上算力超载，而在复杂问题上却因为缺乏迭代优化而遭遇性能瓶颈。

让模型推理内部信号引导推理：

ConMA的“自我进化”路线

为了打破这一瓶颈，ConMA 选择了一条更“内省”的路线：不依赖外部监督，而是重新利用大模型自身的内部不确定性作为引导信号，来协调自适应的推理循环。整个框架通过三个协同机制运作：

系统在初始采样后进入协同循环：首先，CKS 利用复合置信度打分修剪低质量答案组；接着，DSE 从核心代表中生成多样化路径以扩展搜索空间；最后，MSA 通过多项选择题（MCQ）形式巩固共识。

（1）置信度引导的核采样（CKS）：不再仅凭输出频率或外部奖励模型打分，CKS 利用基于 token 概率的内在置信度来评估轨迹，并对答案组进行过滤，从而保留一个紧凑的高质量候选“核心（Kernel）”。

（2）追求多样性的探索（DSE）：为了打破同质化采样，DSE 以核心代表为条件，引导模型生成具有截然不同推理模式的新轨迹。不仅复用了高质量的中间痕迹，还极大地扩展了搜索空间。

（3）多阶段聚合（MSA）：MSA 是一个节省预算的外层循环。它摒弃了“单次大批量采样”，将总预算 N 划分为小批量轮次。系统将更新样本池的过程转化为重复的单选多项选择题，选出的轨迹被循环作为下一轮的输入，驱动系统逐步逼近正确答案。

实验结果

研究团队在四个极具挑战性的推理基准（AIME 2024、AIME 2025、AMC 23 和 GPQA-Diamond）上进行了评估，ConMA 均持续优于强大的基线方法。

实验证明：

不仅做得更对，还省了70%的算力

越级击败大模型：在极具挑战的 AIME 2025 数据集上，ConMA 助力 Qwen3-4B 实现了 80.0% 的准确率。这一成绩大幅领先于参数量大得多的 Qwen3-32B（70.4%）和 QwQ-32B（69.0%）。类似地，Qwen3-1.7B 结合 ConMA 在 AIME 2024 上达到 72.1%，几乎追平了 4B 基础模型（72.4%）的标准表现。

惊人的算力效率：更加值得一提的是 ConMA 的动态计算分配能力。得益于基于收敛的提前停止机制，系统能够根据任务难度自适应调节计算强度。在最大预算设定为 64 的情况下，ConMA 在 AIME 2025 上平均仅需 18 次采样就能达到 80% 的峰值性能。它打破了固定预算基线方法的线性成本依赖，在精准定位最优解的同时，大幅降低了超过 70% 的推理成本。

共一作者：王一诺李清洁

王一诺

李清洁

ACL 2026 Findings：拒绝盲目采样，让大模型推理“精打细算”且“优胜劣汰”

ACL 2026 Findings：拒绝盲目采样，让大模型推理“精打细算”且“优胜劣汰”

发表回复取消回复

近期文章

ACL 2026 Findings：拒绝盲目采样，让大模型推理“精打细算”且“优胜劣汰”

ACL 2026 Findings：拒绝盲目采样，让大模型推理“精打细算”且“优胜劣汰”

发表回复 取消回复

近期文章

发表回复取消回复