又一推理新范式：将LLM自身视作「改进操作符」，突破长思维链极限 |科技 |ii |推理 |操作符 |模型 |训练

机器之心报道

️机器之心编辑部

推理训练促使大语言模型（LLM）生成长思维链（long CoT），这在某些方面有助于它们探索解决策略并进行自我检查。虽然这种方式提高了准确性，但也增加了上下文长度、token / 计算成本和答案延迟。

因此，问题来了：当前的模型能否利用其元认知能力，在这一帕累托前沿上提供其他组合策略，例如在降低上下文长度和 / 或延迟的情况下提高准确性？

带着这一问题，Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看，他们将 LLM 视为其「思维」的改进操作符，实现一系列可能的策略。

论文标题：Rethinking Thinking Tokens: LLMs as Improvement Operators
论文地址：https://arxiv.org/pdf/2510.01123

研究者探究了一种推理方法家族 —— ️并行 - 蒸馏 - 精炼（Parallel-Distill-Refine, PDR），该方法包含以下步骤：(i) 并行生成多样化草稿；(ii) 将其蒸馏成一个有限的文本工作区；(iii) 在此工作区的基础上进行精炼，生成的输出将作为下一轮的种子。重要的是，通过调整并行度，PDR 能够控制上下文长度（从而控制计算成本），并且上下文长度不再与生成 token 的总数混淆。

根据当前模型在 PDR 实例中的应用，它们在准确性上优于长思维链，同时延迟更低。当将并行度设置为 1 时，得到一个特例 —— ️顺序精炼（Sequential Refinement, SR）（即迭代改进单一候选答案），其表现优于长思维链（代价是更高的延迟）。

这种模型组织的成功引申了一个问题：进一步的训练是否能够改变帕累托前沿？为此，研究者训练了一个 8B 规模的思考模型，使用强化学习（RL）使其与 PDR 推理方法保持一致。

在具有可验证答案的数学任务中，迭代 pipeline 在匹配的顺序预算下超越了单次推理基准，并且 PDR 方法带来了最大的提升，在 AIME 2024 和 AIME 2025 数学任务中，准确率分别提高了 11% 和 9%。

️LLM 作为改进操作符

研究者考虑任务 x（例如数学问题），目标是在给定的 token 预算下生成高质量的最终成果 s_final（解答、证明或程序）。设 M_θ 为一个（可以冻结或训练的）大语言模型（LLM），并作为改进操作符。给定当前的成果 s_t（单次生成或一组生成结果）和紧凑的文本工作区 C_t，模型会提出一个改进方案：

读写压缩循环。每个步骤：(i) 读取当前工作区 C_t，(ii) 通过 M_θ 写出改进后的成果 s_t+1，(iii) 使用综合操作符 D 将成果压缩回一个有限的工作区，为下一个步骤做准备。

token 预算。研究者在以下两个预算下评估每种方法：

️操作符实例化

研究者探究了以下两种短上下文的迭代精炼流程。

一是顺序精炼（SR，单一候选的深度改进）。

对于所有 t，设置 C_t ≡ ∅ ，并且迭代改进单一成果进行 R 轮：

顺序精炼与紧凑工作区。在 SR 中，不提供显式的工作区。研究者还评估了一种变体，在每一轮之间插入错误分析步骤：模型不会直接改进之前的答案，而是首先识别并解释当前解答中的缺陷，然后生成修订后的解答。这些笔记在每一轮中充当一个暂时的、局部的工作区。

二是并行 - 蒸馏 - 精炼（PDR，每轮工作区）。

研究者不保持持久的记忆。相反，对于每一轮 r = 1, . . . , R，基于当前的有限摘要采样 M_r 个草稿（并行），然后重新综合（蒸馏）出一个新的有限摘要供下一轮使用：

在最后一轮强制执行单次生成 M_R = 1，此生成结果作为最终解答 s_final 返回。摘要是按轮次生成且非持久的，早期文本不会被重播，防止了每次调用时上下文的增长。

另外，研究者考虑了蒸馏操作符 D 的几种实际实例化方式：

全局摘要
提取性 top-k 证据（共享）
random-k / 自举工作区

最后是操作符一致性训练。前文将 M_θ 视为冻结，并纯粹依赖于提示 / 调度。现在，研究者通过在与测试时相同的短上下文迭代接口下优化模型，确保训练与部署 / 推理的一致性。

基础算法。对于基准强化学习（RL），研究者使用来自 Minimax-M1 的 CISPO 目标。对于给定的提示 x，生成器 π(・| θ_old) 使用旧策略 θ_old 生成 G 个回合 {o^G_i=1}。像 sympy 或 math-verify 这样的自动化检查器被用来为每个回合分配标量奖励 r_i（±1）。CISPO 将 GRPO 的组归一化优势与 REINFORCE 结合起来，达到以下目标。

为什么 PDR 训练时只进行一轮？研究者表示，进行单一的 PDR 回合（包括 M 个早期草稿，蒸馏为 C，以及单次精炼）可以捕捉到关键的接口，同时控制 B_total 并稳定强化学习。在推理时，则可以使用相同的操作符运行多个回合（R > 1）。

本文的数据混合方法在保留长轨迹能力的同时，教会模型在短迭代中进行推理。PDR 被模拟为一次并行→蒸馏→精炼回合，在该过程中，模型观察 (x, C)，并对最终解答轨迹进行可验证奖励优化。

️实验结果

在预算感知协议下，研究者将顺序精炼（SR）和并行 - 蒸馏 - 精炼（PDR）操作符与长思维链（CoT）基准进行了比较。他们使用符号验证器（如 sympy 和 math-verify）来测量准确性，还将结果报告为顺序预算 B_seq（沿着接受路径的延迟代理）和总预算 B_total（所有调用的 token 数）的函数。

研究者对 SR 和 PDR 作为推理时操作符应用于数学问题进行了评估。给定一个提示 x，模型生成一个思维轨迹和最终解答。思维跨度由「...」限定，去除后仅使用自包含的解答作为后续回合输入的构建。他们在 AIME 2024 和 AIME 2025（AoPS，2025）上进行评估，并报告在 16 次独立生成中的准确率 - mean@16。

通过实验，研究者试图回答以下四个研究问题：

RQ1：短上下文迭代是否能通过比较 {SR, PDR} 与长轨迹 CoT，在匹配的 B_seq 和 B_total 下超越长轨迹？
RQ2：通过比较三种 D 变体：全局摘要、提取性 top-k 和 random-k 自举，找出生成 C^(r) 的最佳蒸馏策略。
RQ3：识别给定模型的验证能力对最终性能的影响。
RQ4：操作符一致性训练是否能够改变帕累托前沿？他们比较了操作符一致性 + 标准强化学习与标准单轨迹强化学习。

️RQ1：短上下文迭代是否在匹配延迟的情况下超越长轨迹？

图 3 和图 9 报告了在相同有效 token 预算 Bseq 下，AIME 2024 和 AIME 2025 上的准确性。研究者观察到，从长思维链（Long CoT）转到顺序精炼（SR）时，准确性稳定提升；从 SR 到并行 - 蒸馏 - 精炼（PDR）时，这一提升继续。

对于 o3-mini，在有效预算为 49k token、每次调用思维预算为 16k token 时，准确性从 76.9（长链推理）提升至 81.5（SR）和 86.7（PDR），相较长思维链，绝对值提升了 +9.8 个百分比。gemini-2.5-flash 从 SR 到 PDR 的变化小于 o3-mini，表明 gemini-2.5-flash 在自我验证方面更强。

️RQ2：哪种蒸馏（即摘要）策略效果最佳？

表 2 研究了在固定轮次（每轮生成次数为 g = [16, 8, 4]）和每轮 k = 2 个候选的设置下，PDR 中的蒸馏操作符 D。

在不同数据集和基础模型上，样本级的 top-k 和全局摘要选择一致性优于共享 top-k 和 random-k，并且随着思维预算 B 的增加，差距逐渐扩大。

主要的例外是 AIME 2025 与 o3-mini 的情况，其中全局摘要优于其他方法。研究者推测，o3-mini 的摘要特别擅长从正确和错误的草稿中捕捉线索，而这些线索在蒸馏后会促使更强的后续精炼。

️RQ3：验证能力如何影响推理时间性能？

从图 6 和图 8 中，研究者观察到注入错误候选（Oracle (Incorrect)）会导致所有模型的性能大幅下降。对于 o3-mini，性能下降显著大于 gemini-2.5-flash，这表明后者具有更强的自我验证和恢复能力。这一趋势在 AIME 2024 和 AIME 2025 中都得到了体现。