ACL 2026 Findings:拒绝盲目采样,让大模型推理“精打细算”且“优胜劣汰”
论文引言
在解决复杂数学和逻辑问题时,测试时扩展(Test-Time Scaling, TTS)已经成为提升大语言模型推理能力的核心驱动力 。这类方法通常遵循一个直观的逻辑:多采样几条推理路径,然后选出最好的一条。然而,现有大模型在实际应用这类系统时,面临着一个核心的资源与效率瓶颈: 盲目的大批量采样,既昂贵又低效。
目前主流的方法(如 Best-of-N)大多依赖“一次性生成,保留少数(Sample once and keep few)”的粗暴策略 。这意味着无论题目难易,模型都会死板地消耗固定的算力,导致大量计算资源浪费在注定被丢弃的低质量候选答案上 。更棘手的是,为了从这些庞杂的候选中挑出正确答案,现有的主流框架严重依赖外部训练的奖励模型(ORM/PRM),这不仅需要海量的细粒度人工标注数据,还带来了沉重的部署与推理延迟负担 。
基于此,我们最新的工作提出了一个新的框架:ConMA ,全称为: Confidence-Guided Kernel Sampling with Multi-Stage Aggregation for LLM Reasoning
它的核心思想可以概括为:彻底摒弃外部验证器,利用大模型内在的置信度信号,将静态的算力预算重组为“过滤-探索-聚合”的动态演化闭环 。
也就是说,这项工作不再让模型“蒙着眼睛盲目海投”,而是赋予了它基于自身概率信号的“自审视”能力 。通过置信度核心采样(CKS)尽早剔除劣质噪音 ,利用存活的高质量路径激发多样性探索(DSE),最后将提纯过程转化为多项选择题(MCQ)进行多轮单选迭代(MSA)。它能够根据题目难度自适应地提前停止——在简单题上仅需少量采样即可输出,在难题上则进行深度的逻辑修正 。最终,我们在无需任何外部奖励模型的情况下,让仅有 4B 参数的 Qwen3-4B 模型在 AIME 2025 上达到了 80% 的准确率,并且平均每题仅消耗 18 次采样,大幅超越了 32B 级别的大模型并极大地降低了推理成本 。
ConMA 激发了候选集的演化。相比于传统方法在单次采样中浪费大量资源,ConMA 在固定算力预算下,通过迭代修剪低质量路径、从幸存者中生成多样化探索,并利用模型内在的选择能力对下一轮候选集进行优化 。
近年来,大语言模型(LLM)的快速进步不仅仅依赖于扩展模型自身的参数量,推理阶段的算力分配(Test-Time Scaling, TTS)也正成为提升复杂推理能力的关键驱动力 。通过在推理预算内采样并聚合多条推理轨迹,小模型也能展现出媲美更大规模模型的表现 。
近日,研究团队提出了ConMA(Confidence-guided Multi-stage Aggregation):一种免训练、无需外部验证器的即插即用TTS 框架。在AIME 2025 挑战集上,搭载该框架的Qwen3-4B模型成功拿下了80.0%的准确率,远超同等算力下的其他强大基线方法,甚至越级打败了32B级别的模型。该工作目前已被ACL 2026 Findings接收。
传统 TTS 困境:
为什么现有方法不够高效?
当前主流的 TTS 框架,往往依赖于基于外部验证器(Reward Models)的高级搜索策略,或者主流的基于采样的方法(例如 Best-of-N 和自一致性多数投票) 。尽管取得了经验上的成功,但这种“单次大批量采样(sample once and keep few)”的范式面临着结构性的局限 :
(1)昂贵的外部监督:依赖辅助的奖励模型需要海量细粒度的监督数据进行训练,同时在部署和推理时带来了不可忽视的额外开销。
(2)忽视中间高质量轨迹:独立生成轨迹的同质化特征,导致系统无法复用中间高质量的推理线索 。搜索空间被无引导的随机性主导,产生大量冗余或高度聚集的解 。
(3)计算资源分配僵化:不区分难度的“单次采样”策略,将大量算力浪费在注定被丢弃的低质量候选答案上 。这导致系统在简单任务上算力超载,而在复杂问题上却因为缺乏迭代优化而遭遇性能瓶颈 。
让模型推理内部信号引导推理:
ConMA的“自我进化”路线
为了打破这一瓶颈,ConMA 选择了一条更“内省”的路线:不依赖外部监督,而是重新利用大模型自身的内部不确定性作为引导信号,来协调自适应的推理循环 。整个框架通过三个协同机制运作:
系统在初始采样后进入协同循环:首先,CKS 利用复合置信度打分修剪低质量答案组;接着,DSE 从核心代表中生成多样化路径以扩展搜索空间;最后,MSA 通过多项选择题(MCQ)形式巩固共识 。
(1)置信度引导的核采样(CKS):不再仅凭输出频率或外部奖励模型打分,CKS 利用基于 token 概率的内在置信度来评估轨迹,并对答案组进行过滤,从而保留一个紧凑的高质量候选“核心(Kernel)”。
(2)追求多样性的探索(DSE):为了打破同质化采样,DSE 以核心代表为条件,引导模型生成具有截然不同推理模式的新轨迹。不仅复用了高质量的中间痕迹,还极大地扩展了搜索空间 。
(3)多阶段聚合(MSA):MSA 是一个节省预算的外层循环。它摒弃了“单次大批量采样”,将总预算 N 划分为小批量轮次 。系统将更新样本池的过程转化为重复的单选多项选择题,选出的轨迹被循环作为下一轮的输入,驱动系统逐步逼近正确答案 。
实验结果
研究团队在四个极具挑战性的推理基准(AIME 2024、AIME 2025、AMC 23 和 GPQA-Diamond)上进行了评估,ConMA 均持续优于强大的基线方法 。
实验证明:
不仅做得更对,还省了70%的算力
越级击败大模型:在极具挑战的 AIME 2025 数据集上,ConMA 助力 Qwen3-4B 实现了 80.0% 的准确率 。这一成绩大幅领先于参数量大得多的 Qwen3-32B(70.4%)和 QwQ-32B(69.0%) 。类似地,Qwen3-1.7B 结合 ConMA 在 AIME 2024 上达到 72.1%,几乎追平了 4B 基础模型(72.4%)的标准表现 。
惊人的算力效率:更加值得一提的是 ConMA 的动态计算分配能力。得益于基于收敛的提前停止机制,系统能够根据任务难度自适应调节计算强度 。在最大预算设定为 64 的情况下,ConMA 在 AIME 2025 上平均仅需 18 次采样就能达到 80% 的峰值性能 。它打破了固定预算基线方法的线性成本依赖,在精准定位最优解的同时,大幅降低了超过 70% 的推理成本 。
共一作者:王一诺 李清洁
王一诺
李清洁