机器之心报道

️机器之心编辑部

推理训练促使大语言模型(LLM)生成长思维链(long CoT),这在某些方面有助于它们探索解决策略并进行自我检查。虽然这种方式提高了准确性,但也增加了上下文长度、token / 计算成本和答案延迟。

因此,问题来了:当前的模型能否利用其元认知能力,在这一帕累托前沿上提供其他组合策略,例如在降低上下文长度和 / 或延迟的情况下提高准确性?

带着这一问题,Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看,他们将 LLM 视为其「思维」的改进操作符,实现一系列可能的策略。

  • 论文标题:Rethinking Thinking Tokens: LLMs as Improvement Operators
  • 论文地址:https://arxiv.org/pdf/2510.01123

研究者探究了一种推理方法家族 —— ️并行 - 蒸馏 - 精炼(Parallel-Distill-Refine, PDR),该方法包含以下步骤:(i) 并行生成多样化草稿;(ii) 将其蒸馏成一个有限的文本工作区;(iii) 在此工作区的基础上进行精炼,生成的输出将作为下一轮的种子。重要的是,通过调整并行度,PDR 能够控制上下文长度(从而控制计算成本),并且上下文长度不再与生成 token 的总数混淆。

根据当前模型在 PDR 实例中的应用,它们在准确性上优于长思维链,同时延迟更低。当将并行度设置为 1 时,得到一个特例 —— ️顺序精炼(Sequential Refinement, SR)(即迭代改进单一候选答案),其表现优于长思维链(代价是更高的延迟)。

这种模型组织的成功引申了一个问题:进一步的训练是否能够改变帕累托前沿?为此,研究者训练了一个 8B 规模的思考模型,使用强化学习(RL)使其与 PDR 推理方法保持一致。

在具有可验证答案的数学任务中,迭代 pipeline 在匹配的顺序预算下超越了单次推理基准,并且 PDR 方法带来了最大的提升,在 AIME 2024 和 AIME 2025 数学任务中,准确率分别提高了 11% 和 9%。

️LLM 作为改进操作符

研究者考虑任务 x(例如数学问题),目标是在给定的 token 预算下生成高质量的最终成果 s_final(解答、证明或程序)。设 M_θ 为一个(可以冻结或训练的)大语言模型(LLM),并作为改进操作符。给定当前的成果 s_t(单次生成或一组生成结果)和紧凑的文本工作区 C_t,模型会提出一个改进方案:

读写压缩循环。每个步骤:(i) 读取当前工作区 C_t,(ii) 通过 M_θ 写出改进后的成果 s_t+1,(iii) 使用综合操作符 D 将成果压缩回一个有限的工作区,为下一个步骤做准备。

token 预算。研究者在以下两个预算下评估每种方法:

️操作符实例化

研究者探究了以下两种短上下文的迭代精炼流程。

一是顺序精炼(SR,单一候选的深度改进)。

对于所有 t,设置 C_t ≡ ∅ ,并且迭代改进单一成果进行 R 轮:

顺序精炼与紧凑工作区。在 SR 中,不提供显式的工作区。研究者还评估了一种变体,在每一轮之间插入错误分析步骤:模型不会直接改进之前的答案,而是首先识别并解释当前解答中的缺陷,然后生成修订后的解答。这些笔记在每一轮中充当一个暂时的、局部的工作区。

二是并行 - 蒸馏 - 精炼(PDR,每轮工作区)。

研究者不保持持久的记忆。相反,对于每一轮 r = 1, . . . , R,基于当前的有限摘要采样 M_r 个草稿(并行),然后重新综合(蒸馏)出一个新的有限摘要供下一轮使用:

在最后一轮强制执行单次生成 M_R = 1,此生成结果作为最终解答 s_final 返回。摘要是按轮次生成且非持久的,早期文本不会被重播,防止了每次调用时上下文的增长。

另外,研究者考虑了蒸馏操作符 D 的几种实际实例化方式:

  • 全局摘要
  • 提取性 top-k 证据(共享)
  • random-k / 自举工作区

最后是操作符一致性训练。前文将 M_θ 视为冻结,并纯粹依赖于提示 / 调度。现在,研究者通过在与测试时相同的短上下文迭代接口下优化模型,确保训练与部署 / 推理的一致性。

基础算法。对于基准强化学习(RL),研究者使用来自 Minimax-M1 的 CISPO 目标。对于给定的提示 x,生成器 π(・| θ_old) 使用旧策略 θ_old 生成 G 个回合 {o^G_i=1}。像 sympy 或 math-verify 这样的自动化检查器被用来为每个回合分配标量奖励 r_i(±1)。CISPO 将 GRPO 的组归一化优势与 REINFORCE 结合起来,达到以下目标。

为什么 PDR 训练时只进行一轮?研究者表示,进行单一的 PDR 回合(包括 M 个早期草稿,蒸馏为 C,以及单次精炼)可以捕捉到关键的接口,同时控制 B_total 并稳定强化学习。在推理时,则可以使用相同的操作符运行多个回合(R > 1)。

本文的数据混合方法在保留长轨迹能力的同时,教会模型在短迭代中进行推理。PDR 被模拟为一次并行→蒸馏→精炼回合,在该过程中,模型观察 (x, C),并对最终解答轨迹进行可验证奖励优化。

️实验结果

在预算感知协议下,研究者将顺序精炼(SR)和并行 - 蒸馏 - 精炼(PDR)操作符与长思维链(CoT)基准进行了比较。他们使用符号验证器(如 sympy 和 math-verify) 来测量准确性,还将结果报告为顺序预算 B_seq(沿着接受路径的延迟代理)和总预算 B_total(所有调用的 token 数)的函数。

研究者对 SR 和 PDR 作为推理时操作符应用于数学问题进行了评估。给定一个提示 x,模型生成一个思维轨迹和最终解答。思维跨度由 「...」限定,去除后仅使用自包含的解答作为后续回合输入的构建。他们在 AIME 2024 和 AIME 2025(AoPS,2025)上进行评估,并报告在 16 次独立生成中的准确率 - mean@16。

通过实验,研究者试图回答以下四个研究问题:

  • RQ1:短上下文迭代是否能通过比较 {SR, PDR} 与长轨迹 CoT,在匹配的 B_seq 和 B_total 下超越长轨迹?
  • RQ2:通过比较三种 D 变体:全局摘要、提取性 top-k 和 random-k 自举,找出生成 C^(r) 的最佳蒸馏策略。
  • RQ3:识别给定模型的验证能力对最终性能的影响。
  • RQ4:操作符一致性训练是否能够改变帕累托前沿?他们比较了操作符一致性 + 标准强化学习与标准单轨迹强化学习。

️RQ1:短上下文迭代是否在匹配延迟的情况下超越长轨迹?

图 3 和图 9 报告了在相同有效 token 预算 Bseq 下,AIME 2024 和 AIME 2025 上的准确性。研究者观察到,从长思维链(Long CoT)转到顺序精炼(SR)时,准确性稳定提升;从 SR 到并行 - 蒸馏 - 精炼(PDR)时,这一提升继续。

对于 o3-mini,在有效预算为 49k token、每次调用思维预算为 16k token 时,准确性从 76.9(长链推理)提升至 81.5(SR)和 86.7(PDR),相较长思维链,绝对值提升了 +9.8 个百分比。gemini-2.5-flash 从 SR 到 PDR 的变化小于 o3-mini,表明 gemini-2.5-flash 在自我验证方面更强。

️RQ2:哪种蒸馏(即摘要)策略效果最佳?

表 2 研究了在固定轮次(每轮生成次数为 g = [16, 8, 4])和每轮 k = 2 个候选的设置下,PDR 中的蒸馏操作符 D。

在不同数据集和基础模型上,样本级的 top-k 和全局摘要选择一致性优于共享 top-k 和 random-k,并且随着思维预算 B 的增加,差距逐渐扩大。

主要的例外是 AIME 2025 与 o3-mini 的情况,其中全局摘要优于其他方法。研究者推测,o3-mini 的摘要特别擅长从正确和错误的草稿中捕捉线索,而这些线索在蒸馏后会促使更强的后续精炼。

️RQ3:验证能力如何影响推理时间性能?

从图 6 和图 8 中,研究者观察到注入错误候选(Oracle (Incorrect))会导致所有模型的性能大幅下降。对于 o3-mini,性能下降显著大于 gemini-2.5-flash,这表明后者具有更强的自我验证和恢复能力。这一趋势在 AIME 2024 和 AIME 2025 中都得到了体现。

️RQ4:操作符一致性训练是否推动了帕累托前沿的移动?

表 3 总结了主要结果。从每个强化学习(RL)目标得到的模型分别在长思维链(Long CoT)生成和 PDR 上进行了评估。PDR 强化学习相比基准方法在 AIME 2024 上提升了 +3.34 个百分点,在 AIME 2025 上提升了 +1.67 个百分点。

从基准 RL 检查点开始的持续更新,使得额外的 PDR 强化学习带来了更大的提升,分别在 AIME 2024 和 AIME 2025 上提升了 +5.00 和 +4.59 个百分点。此外,研究者还观察到,在 PDR RL 训练下,长思维链生成也有一定的增益。

这些结果表明,使用操作符一致性的强化学习目标进行训练减少了训练与部署之间的不匹配,将额外的计算转化为准确性,而不会增加每次调用的顺序预算。

更多技术细节和实验结果请参阅原论文。