RL | 一只小茄墩

微软GFPO：有效减少思考膨胀问题，system2也可以很自信

《Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning》解决大语言模型在通过强化学习（RL）提升准确率时，普遍存在的“响应长度膨胀”问题。作者指出，许多模型为了追求更高的分数，会生成大量冗长、重复的“填充”性文本，这在推理时造成了不必要的计算浪费。为解决此问题，论文提出了GFPO (Group Filtered Policy Optimization，组过滤策略优化)。其核心思想：在训练阶段“想得更多”，通过采样更大的响应组，并根据响应长度和**token效率（每token奖励）**这两个关键指标进行过滤，只在最优的样本上进行训练，从而教会模型在推理（测试）阶段“想得更少”，生成更简洁的回答。在多个STEM和编程基准测试中，长度膨胀减少了46-85%，同时保持了准确率。此外，自适应难度GFPO (Adaptive Difficulty GFPO)，它能根据问题的实时难度动态分配训练资源，实现了效率与准确性的更优平衡。用一次性的训练时间计算，换取持续的、部署时的推理时间计算节省，这为高效推理模型的开发提供了极具价值的新思路。 Group Filtered Policy Optimization GFPO的核心思想是：与其在所有生成的响应上进行无差别训练，不如引入一个“过滤”步骤，有选择性地学习。其关键流程被拆解为： 1)扩大采样：对每个问题，从当前策略中采样一个比GRPO更大的响应组$\mathcal{G}=\{o_{1},...,o_{G}\}$。 2)度量与排序：根据一个用户指定的度量函数（如响应长度、token效率等），对组内所有$G$个响应进行评分和排序。 3)拒绝采样与筛选：只保留排序后最优的$k$个响应，形成子集$\mathcal{S}$（其中$k < G$）。这个过程通过一个二进制掩码$m \in \{0,1\}^G$来实现，被选中的响应$m_i=1$，被拒绝的$m_i=0$。 4)修正优势计算：这是最关键的一步。优势值的计算只在被选中的子集$\mathcal{S}$内部进行。其公式被定义为：$\hat{A}*{i,t}^{(m)}=\frac{R(q,o*{i})-\mu_{S}}{\sigma_{S}}m_{i}$。其中，$\mu_S$和$\sigma_S$分别是子集$\mathcal{S}$的奖励均值和标准差。对于被拒绝的响应（$m_i=0$），它们的优势值被直接置为零，因此它们对策略更新的梯度贡献也为零。模型只从那些“表现出期望属性”（如简洁）的样本中学习如何获得高奖励。 GFPO变体： token效率GFPO (Token Efficiency GFPO)：它使用的过滤指标不是纯粹的长度，而是奖励与长度的比率 (reward/length)。这鼓励模型生成“性价比”高的响应，允许在获得足够高奖励的前提下产生较长的回答，从而追求简洁与效果的平衡。自适应难度GFPO (Adaptive Difficulty GFPO)：这是一个更智能的策略。它首先通过样本的平均奖励来实时估计问题的难度，然后动态地调整保留的样本数量$k$。对于简单问题，它采用更激进的过滤（更小的$k$）来强制模型简洁；对于难题，它保留更多的样本（更大的$k$）以鼓励充分探索。将优势函数中的基线计算范围从整个样本组(G)缩小到经过筛选的子集(S)，并将被拒绝样本的优势直接清零。这是一个极其简洁而强大的干预手段。它没有去设计复杂的惩罚项，而是让不符合期望的样本在梯度更新中“沉默”，从而以一种非常高效和直接的方式引导策略的优化方向。实验分析模型与基线方面，使用仅经过监督微调（SFT）的Phi-4-reasoning作为基础模型，并与经过标准GRPO训练的Phi-4-reasoning-plus进行对比，确保了比较的公平性。数据集方面，虽然训练集包含7.2万个数学问题，但作者特意限制模型在100个训练步内只看到6400个问题，这与基线的训练量完全一致，从而排除了数据量差异带来的影响。奖励函数的设计是加权的准确率和n-gram重复惩罚，值得注意的是，这个奖励函数本身已经包含了对长度的惩罚，但作者在引言中已论证其不足以抑制GRPO的长度膨胀，这反过来加强了GFPO方法的必要性。本章最重要的贡献之一是定义了关键评估指标——超额长度缩减率 (Excess Length Reduction, ELR)，其公式为：$ELR=\frac{L_{GRPO}-L_{GFPO}}{L_{GRPO}-L_{SFT}}$。这个指标衡量的是GFPO在多大程度上“抵消”了由GRPO训练所引入的额外长度。例如，100%的ELR意味着GFPO将响应长度完全恢复到了SFT基线的水平。这是一个比单纯比较绝对长度更具洞察力的指标，因为它精确地量化了新方法对“问题”（即长度膨胀）的解决程度。在组规模设置上，作者将GFPO的采样组规模G设置为8、16、24，但保留的组规模k始终小于等于8，以确保其接收的策略梯度信号数量与GRPO基线（G=8）相当，这是一个严谨的实验设计，旨在公平地隔离出“过滤”这一操作本身的效果。结果分析 GFPO能否在保持准确率的同时，有效抑制响应长度的膨胀？其不同变体和参数（如$k$和$G$）的效果如何？作者通过在多个标准数学和代码推理基准（AIME 24/25, GPQA, Omni-MATH, LiveCodeBench）上评估三种GFPO变体（Shortest k/G, Token Efficiency, Adaptive Difficulty），得出了一系列强有力的结论。首先，实验明确了**“想得更少，需要采得更多”**。仅在与GRPO相同的组规模内进行子采样（如Shortest 6/8），长度缩减效果微乎其微。必须扩大初始采样池（即增大$G$），才能为过滤提供足够多的优质（短）候选。其次，保留率 (k/G) 是控制长度的关键杠杆，降低保留率能有效缩短响应长度。在所有变体中，token效率 (Token Efficiency) GFPO 表现最为亮眼，它在所有任务上都实现了最大幅度的长度缩减（高达70.9%-84.6%），同时统计上并未显著降低准确率，证明了“每token奖励”是比纯长度更优的简洁性度量。自适应难度 (Adaptive Difficulty) GFPO 则展示了其智能性，在与固定k值方法计算成本相当的情况下，它通过动态分配探索预算（即k值），在多个基准上取得了更优的长度-准确率平衡。 ...

Qwen存在严重数据污染，基于Qwen的RL论文可靠性存疑

《Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination》本文对为什么像Qwen这样的大语言模型在使用随机甚至错误的奖励信号进行强化学习后，在数学推理任务上表现反而更好——提出了一个基于“数据污染”的合理解释。研究者没有轻易接受“模型能力强”或“强化学习有奇效”的表面结论，而是设计了一系列实验来验证他们的怀疑。关键做法是，他们发现Qwen模型家族在MATH-500等著名数学基准测试上表现出的惊人性能，很可能是因为它在预训练时接触过这些基准测试的题目和答案。为了证明这一点，他们创建了一个全新的、完全合成的、保证无泄漏的数学计算数据集RandomCalculation。在这个干净的数据集上，先前观察到的“奇迹”消失了：只有准确的奖励信号才能稳定提升模型的推理能力，而错误或随机的奖励则毫无助益。这一过程为我们揭示了在评估大模型能力时，必须警惕和排除数据污染问题，否则可能会得出不可靠甚至错误的结论。研究者观察到，强化学习（RL）技术能显著提升大语言模型（LLMs）的推理能力，特别是Qwen系列模型在数学基准测试上取得了SOTA（顶尖水平）的结果。但奇怪的是，一些研究声称，即使给予Qwen模型随机或错误的奖励信号，其性能也能提升，而这种现象在Llama等其他模型上却不成立。为了解释这个现象，论文提出了两个对立的假设：（1）数据污染：Qwen在海量网络数据预训练时，可能无意中“背诵”了评测基准（如MATH-500）的题目和答案。因此，看似随机的奖励实际上是触发了模型去回忆这些背过的答案。（2）基线数学能力强：Qwen本身数学基础就好，所以即使是噪声奖励也能帮助它。为了验证哪个假设是正确的，作者设计了明确的步骤：首先，通过“部分提示词补全”实验来检测模型是否对基准数据存在记忆；其次，构建一个全新的、无污染的合成数据集RandomCalculation 。最后，在这个干净的数据集上重新进行强化学习实验，观察不同奖励信号的真实效果。相关工作第一条线是关于在Qwen2.5上应用强化学习提升数学推理能力的研究。作者们列举了多种新兴的RL方法，如RLVR（基于可验证奖励的强化学习）、TTRL（测试时强化学习）以及各种利用熵或自洽性作为内在奖励信号的技术，并承认它们在Qwen上取得了显著成功。但同时，他们也引用了质疑这些成果普适性的研究，特别是那些指出随机奖励仅对Qwen有效而对Llama等模型无效的论文，从而引出“模型特定性”的问题。第二条线是预训练语料对推理能力的影响。作者指出，模型的数学能力很大程度上由其预训练数据决定，不同模型（如Qwen和Llama）对强化学习的反应不同，根源可能就在于其接触的训练数据存在差异。通过梳理这两方面工作，作者巧妙地将“RL在Qwen上的奇特效果”与“预训练数据的重要性”联系起来，为后续的数据污染调查铺平了道路。实验设置首先，在模型选择上，他们选取了参数量相当的Qwen2.5和Llama3.1系列模型进行对比，这遵循了控制变量的原则，旨在分离出模型本身的特性而非规模带来的差异。其次，核心的创新在于记忆能力评估的设计。他们没有采用常规的完整问题测试，而是提出了两个巧妙的指标：（1）部分提示词补全率：只给模型问题的前40%或60% ，看它能否准确生成剩余的部分。这通过ROUGE-L（衡量最长公共子序列）和EM（完全匹配）来量化，如果模型能高概率补全，则说明它很可能“见过”原题。（2）部分提示词答案准确率：在只给出部分提示的情况下，看模型能否直接给出正确答案。如果模型在问题不完整时仍能答对，这是数据污染的强烈信号。最后，在强化学习评估中，他们为自己创建的RandomCalculation数据集设计了一个连续奖励函数：$r = 1 - 0.5 \cdot min(|a-b|, 1) - 0.5 \cdot min(\frac{|a-b|}{|b|+\epsilon}, 1)$ 。这个函数同时考虑了预测值与真实值的绝对和相对误差，解决了新数据集中答案是高精度小数、传统0/1奖励过于稀疏难以训练的问题，确保了RL训练的稳定性和有效性。结果与分析复现问题：研究者首先在MATH-500数据集上成功复现了反常现象——随机和错误奖励确实提升了Qwen-Math-7B的性能，但对Llama却有负面影响。他们还敏锐地发现，Qwen基础模型的部分性能提升，仅仅是因为学习适应了评测时使用的对话模板，这揭示了评估中需要注意的陷阱。定位原因：通过前述的“部分提示词”测试，他们拿出了数据污染的“铁证”。结果显示，在MATH-500这类旧基准上，当只给出60%的问题时，Qwen2.5-Math-7B能以高达54.6%的概率精确补完剩余问题，并且依然能正确解答；而Llama的对应得分几乎为零。更具说服力的是，在一个模型发布后才创建的新基准LiveMathBench上，Qwen的补全率骤降至0%，与Llama表现一致。这强有力地证明了Qwen对旧基准存在记忆，所谓的“随机奖励提升性能”实际上是触发了模型的记忆提取机制。第三步，验证结论：为了彻底排除干扰，他们在自创的、无污染的RandomCalculation数据集上进行了最终实验。结果非常清晰：在这个干净的环境里，“魔法”消失了。无论是Qwen还是Llama，都只有在获得正确奖励信号时，性能才会稳定提升，而随机或错误奖励则完全无效。这直接证实了数据污染才是根本原因，而非模型本身有什么特异功能。

Karpathy：强化学习不是最终答案，那下一个风口是？

扩大强化学习的规模是时下的一大热点，我昨天刚和朋友聊过这个话题。我相当肯定，RL 会持续带来更多中期收益，但我也并不认为它就是最终的解决方案。 RL 的基本逻辑是：“嘿，这次做得不错（/很糟），那么在未来，我就稍微增加（/减少）我所采取的每一个行动的概率”。你从验证器函数中能获得比显式监督强大得多的杠杆效应，这非常棒。但首先，从渐进的角度看，这件事就有点可疑了——一旦任务的交互时长增加到几分钟甚至几小时，你真的要费那么大劲，只为了在最终学习到一个单一的标量结果，并用它来直接调整梯度权重吗？其次，除了渐进性问题，对于大多数智能任务而言，这感觉上并不像是人类的学习改进机制。在每一次推演后，我们通过一个复盘/反思阶段——“哪些地方做得好？哪些地方不太好？下次我该尝试什么？”——能提取出远为丰富的监督信息。并且，来自这个阶段的经验教训是明确的，就像一条可以被添加到未来系统提示词中的新指令，并可以选择性地在之后（有点像睡眠）被蒸馏为模型的权重（/直觉）。在英语中，我们称某件事通过这个过程变成了“第二天性”（second nature），而我们目前正缺少这样的学习范式。ChatGPT 中新的“记忆”功能或许就是这种范式的一个雏形，尽管它目前只用于个性化定制，而非解决问题。值得注意的是，在雅达利游戏的 RL 等场景中，并不存在与之对等的机制，因为那些领域里没有大语言模型（LLM），也没有上下文学习（in-context learning）。示例算法：给定一个任务，先进行几次推演（rollout），然后将所有推演过程（包括每一次的奖励）都塞进一个上下文窗口，再用一个元提示词（meta-prompt）来复盘/反思哪些地方做得好或不好，从而提炼出一条字符串形式的“经验教训”，并将其添加到系统提示词中（或者更通用地说，更新当前的经验教训数据库）。这个想法还有许多细节有待填补，有许多可行的调整，前景并不明朗。经验教训的示例：我们知道，由于 Token 化处理，大语言模型不太容易看清单词中的字母，也不太容易在残差流（residual stream）中进行计数，这导致了著名的难题——识别“strawberry”中的‘r’。Claude 的系统提示词里打了一个“快速补丁”，即添加了这样一条指令：“如果用户要求你计数字母，请先将字母用逗号隔开，每数一个就给一个显式计数器加一，并以此方式完成任务”。这条字符串就是“经验教训”，它明确地指导了模型该如何完成计数任务。但问题在于，这样的经验教训如何能从 AI 智能体的实践中自发涌现，而不是由工程师硬编码进去？它该如何被泛化？以及如何随着时间推移对这些经验教训进行蒸馏，以避免上下文窗口被无限撑大？总而言之：RL 将会带来更多进步，因为一个优秀的 RL 系统能起到更强的杠杆作用，更信奉“惨痛教训”（The Bitter Lesson）的理念，并且优于监督微调（SFT）。但这感觉并非故事的全部，尤其是当推演的长度还在不断增加时。在这之后，还有更多的 S 型增长曲线等待我们去发现，这些曲线可能专属于大语言模型，在游戏或机器人这类环境中没有先例，而这，正激动人心。

SRPO：大语言模型上大规模强化学习的跨领域实现

《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》摘要以OpenAI的o1和DeepSeek的R1为代表的推理模型最新进展，凸显了强化学习在提升大语言模型推理能力方面的显著潜力。然而，由于方法论的透明度不足，这些技术突破在不同领域的复现仍面临挑战。本研究提出两阶段历史重采样策略优化（Two-Staged history-Resampling Policy Optimization, SRPO），该方案在AIME24和LiveCodeBench基准测试中，使用与深度求索相同的基础模型（即Qwen2.5-32B），仅通过强化学习（无需预先监督微调/Supervised Fine-Tuning）便超越了DeepSeek-R1-Zero-32B的性能表现。基于组相对策略优化（Group Relative Policy Optimization, GRPO）框架，我们创新性地提出：（1）跨领域两阶段训练范式——平衡数学推理与编程能力的协同发展；（2）历史重采样（History Resampling, HR）技术——针对训练过程中低效样本的优化方案。大量实验证实了该方法的有效性，为扩展大语言模型在多任务场景下的推理能力提供了重要洞见。引言具体来说，我们实施了一个两阶段训练范式来培养大语言模型 (LLM) 的推理和领域特定技能。我们发现，尽早增强长思维链 (CoT) 推理能力对于跨任务泛化至关重要。在第一阶段，我们主要使用数学数据进行训练，以培养反思性思维和逐步解决问题的能力。在第二阶段，我们整合编码数据，建立在第一阶段培养的推理技能基础之上。这种范式确保了推理和编码能力的稳步提升。为了解决 GRPO 中的零优势现象（该现象阻碍了梯度更新并降低了样本效率），我们引入了历史重采样。通过过滤掉持续正确的答案，我们确保了有意义的梯度，提高了样本效率，并加速了收敛。此外，我们详细介绍了我们的数据策展流程，包括数据清洗和难度级别分类。最终的训练数据集使模型接触到具有挑战性的高质量问题，旨在培养复杂的推理能力。结合上述技术，SRPO 在 AIME24 上达到了 50.0 pass@1，在 LiveCodeBench 上达到了 41.6 pass@1，超过了 DeepSeek-R1-Zero-Qwen-32B 的性能（在 AIME 上为 47.0 分，在 LiveCodeBench 上为 40.2 分），且仅用了 2,000 步——仅为 R1-Zero 训练步数的 1/5。 GRPO GRPO 的核心思想是通过一组 rollout 内的相对奖励来估计基线。因此，它降低了 critic 模型的计算成本并提高了训练稳定性。具体来说，对于每个问题 q，模型生成一组响应 $o_1, o_2,... , o_G$ 并计算相应的奖励 $r_1, r_2, ... , r_G$。$A_i$ 是通过在每个组内对奖励进行归一化而获得的优势。 ...

Silver、Sutton：欢迎进入经验时代

欢迎进入经验时代 David Silver, Richard S. Sutton 摘要我们正处于人工智能新时代的临界点，其发展有望达到前所未有的高度。新一代的智能体将主要依靠经验学习，从而获得超越人类的能力。本文旨在探讨界定这一新时代的关键特征。人类数据时代近年来，人工智能（ AI ）取得了长足进步。其发展路径主要是依赖海量的人类生成数据进行训练，再结合人类专家的实例与偏好加以微调。以大语言模型（ LLMs ）为代表的 AI 系统，已经展现出惊人的通用能力：从写诗、解物理题，到医疗诊断、解读法律文件，单一模型几乎无所不能。然而，仅仅模仿人类，虽然足以让机器在许多方面达到与人类相当的能力水平，但这种方法本身难以、甚至可以说无法在诸多重要领域实现超越人类的智能。在数学、编程、科学研究等关键领域，从现有的人类数据中挖掘知识似乎正迅速触及天花板。大多数真正能提升顶尖 AI 性能的优质数据，即使尚未耗尽，也即将枯竭。单纯依赖监督学习和人类数据的进步速度，放缓趋势已十分明显，预示着我们亟需探索新的路径。更重要的是，诸如新定理、新技术或重大科学发现等真正有价值的突破性见解，往往超出了现有的人类认知边界，自然也无法从已知的人类数据中获得。经验时代要取得显著的进一步进展，需要一个新的数据来源。这种数据必须以一种随着智能体变强而持续改进的方式生成；任何静态的合成数据生成程序都会很快被超越。这可以通过允许智能体从自身经验中持续学习来实现，即由智能体与其环境互动生成的数据。人工智能正处于一个新时期的临界点，在这个时期，经验将成为改进的主要媒介，并最终使当今系统中使用的人类数据规模相形见绌。这种转变可能已经开始，即使是对于体现以人类为中心的人工智能的大语言模型也是如此。一个例子是数学能力。AlphaProof [20]最近成为第一个在国际数学奥林匹克竞赛中获得奖牌的程序，超越了以人类为中心的方法[27, 19]的表现。最初接触到人类数学家多年来创建的约十万个形式化证明，AlphaProof的强化学习(RL)算法¹随后通过与形式化证明系统的持续互动生成了一亿多个证明。这种对交互式经验的关注使AlphaProof能够探索超出现有形式化证明范围的数学可能性，从而发现解决新颖且具有挑战性问题的解决方案。非形式化数学也通过用自生成数据替代专家生成数据取得了成功；例如，DeepSeek的最新工作"强调了强化学习的力量和美丽：我们不是明确地教导模型如何解决问题，而是简单地提供正确的激励，它自主地发展出先进的问题解决策略。"[10] 我们的论点是，一旦经验学习的全部潜力被利用，将会出现令人难以置信的新能力。这个经验时代可能的特点是智能体和环境不仅从大量经验数据中学习，还将在几个方面突破以人类为中心的人工智能系统的局限性：智能体将生活在经验流中，而不是短暂的互动片段中。它们的行动和观察将深深植根于环境中，而不仅仅通过人类对话进行互动。它们的奖励将植根于环境体验中，而不是来自人类的预先判断。它们将计划和/或推理经验，而不仅仅是用人类术语进行推理。我们相信，今天的技术，配合适当选择的算法，已经提供了足够强大的基础来实现这些突破。此外，人工智能社区对这一议程的追求将刺激这些方向的新创新，使人工智能迅速发展为真正超越人类的智能体。流一个基于经验的智能体可以在一生中持续学习。在人类数据时代，基于语言的人工智能主要关注短互动情节：例如，用户提出问题，智能体（可能经过几个思考步骤或工具使用行动后）做出响应。通常，很少或没有信息从一个情节传递到下一个情节，阻碍了随着时间推移的适应能力。此外，智能体仅针对当前情节内的结果，比如直接回答用户的问题。相比之下，人类（和其他动物）存在于一个持续多年的行动和观察的持续流中。信息在整个流中传递，他们的行为从过去的经验中适应以自我纠正和改进。此外，目标可能是根据延伸到流的远期未来的行动和观察来指定的。例如，人类可能选择行动以实现长期目标，如改善健康、学习语言或实现科学突破。强大的智能体应该有自己的经验流，像人类一样，在长时间尺度上发展。这将允许智能体采取行动实现未来目标，并随时间不断适应新的行为模式。例如，一个连接到用户可穿戴设备的健康和健身智能体可以在很多个月内监控睡眠模式、活动水平和饮食习惯。然后，它可以提供个性化建议、鼓励，并根据长期趋势和用户的特定健康目标调整其指导。同样，一个个性化教育智能体可以跟踪用户在学习新语言方面的进步，识别知识差距，适应其学习风格，并在几个月甚至几年内调整其教学方法。此外，一个科学智能体可以追求雄心勃勃的目标，如发现新材料或减少二氧化碳。这样的智能体可以在较长时间内分析真实世界的观察结果，开发和运行模拟，并建议真实世界的实验或干预措施。在每种情况下，智能体采取一系列步骤，以便在特定目标方面最大化长期成功。单个步骤可能不提供任何即时利益，甚至在短期内可能是不利的，但仍然可能在整体上有助于长期成功。这与现有的人工智能系统形成鲜明对比，后者对请求提供即时回应，无法测量或优化其行为对环境的未来影响。行动与观察在经验时代，AI 智能体将在现实世界中自主行动。人类数据时代的大语言模型主要专注于人类特有的交互方式——向用户输出文本，并从用户那里接收文本输入。这与自然智能有着显著不同，在自然智能中，动物通过运动控制和感官与环境互动。虽然动物，特别是人类，会与其他动物交流，但这种交流是通过与其他感觉运动控制相同的接口进行的，而非通过某种特殊渠道。长期以来，研究者已经认识到大语言模型也可以在数字世界中执行操作，例如通过调用API（参见例如[43]）。最初，这些能力主要来自人类使用工具的示例，而非智能体自身的经验。然而，编码和工具使用能力越来越多地建立在执行反馈[17, 7, 12]的基础上，即AI 智能体实际运行代码并观察结果。最近，一波新型原型智能体已经开始以更加通用的方式与计算机交互，即使用与人类操作计算机相同的界面[3, 15, 24]。这些变化预示着从完全依赖人类特有的交流方式，向更加自主的交互模式转变，使AI 智能体能够在世界上独立行动。这些智能体将能够主动探索世界，适应变化的环境，并发现人类可能永远不会想到的策略。这些更丰富的交互将提供自主理解和控制数字世界的手段。AI 智能体可能使用"人类友好型"的行动和观察方式，如用户界面，自然地促进与用户的沟通和协作。智能体也可能采取"机器友好型"的行动，执行代码并调用API，使其能够自主行动以实现目标。在经验时代，AI 智能体还将通过数字界面与现实世界互动。例如，一个科学智能体可以监控环境传感器，远程操作望远镜，或控制实验室中的机器人手臂，自主进行实验。奖励什么情况下具有体验能力的智能体可以从外部事件和信号中学习，而不仅仅是人类偏好？以人为中心的大语言模型通常基于人类预判来优化奖励：专家观察智能体的行动并决定它是否是良好行动，或在多种选择中挑选最佳的智能体行动。例如，专家可能会评判健康智能体的建议、教育助手的教学或科学家智能体建议的实验。这些奖励或偏好是由人类在不考虑其后果的情况下确定的，而非通过测量这些行动对环境的实际影响，这意味着它们并非直接建立在世界的现实基础上。以这种方式依赖人类预判通常会导致智能体性能面临无法突破的上限：智能体无法发现被人类评估者低估的更好策略。为了发现远超现有人类知识的新想法，必须使用基于现实的奖励：源自环境本身的信号。例如，健康助手可以将用户的健康目标转化为基于多种信号组合的奖励，如他们的静息心率、睡眠时长和活动水平，而教育助手可以使用考试成绩为语言学习提供基于现实的奖励。同样，以减少全球变暖为目标的科学智能体可能使用基于二氧化碳水平的经验观察作为奖励，而以发现更强材料为目标的智能体可能基于材料模拟器的各种测量组合，如抗拉强度或杨氏模量。基于现实的奖励可能来自作为智能体环境一部分的人类。例如，人类用户可以报告他们是否觉得蛋糕美味、锻炼后的疲劳程度、或头痛的疼痛水平，从而使助手智能体能够提供更好的食谱、改进其健身建议或改善其推荐的药物。这类奖励衡量智能体行动在其环境中的后果，最终应该能比人类专家预先判断提议的蛋糕配方、锻炼计划或治疗方案提供更好的帮助。如果不是来自人类数据，奖励从何而来？一旦智能体通过丰富的行动和观察空间（见上文）与世界连接，将不缺乏提供奖励基础的实际信号。事实上，世界充满了各种量化指标，如成本、速率、饥饿感、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功率、访问量、产量、库存、点赞数、收入、愉悦/痛苦、经济指标、准确度、功率、距离、速度、效率或能源消耗。此外，还有无数额外的信号来自特定事件的发生，或从原始观察和行动序列中派生的特征。原则上，可以创建各种不同的智能体，每个智能体将一个基于现实的信号作为奖励进行优化。有一种观点认为，即使是单一的这种奖励信号，如果能够高效优化，也可能足以产生广泛适用的智能。这是因为在复杂环境中实现一个简单目标通常需要掌握各种各样的技能。然而，追求单一奖励信号表面上似乎不符合通用人工智能的要求，后者需要能够可靠地引导向用户期望的任意行为。那么，自主优化基于现实的、非人类奖励信号是否与现代人工智能系统的要求相对立？我们认为不一定如此，以下我们将勾勒一种可能满足这些需求的方法；当然，其他方法也可能存在。这个想法是以用户引导的方式，基于现实信号灵活地调整奖励。例如，奖励函数可以由神经网络定义，该网络将智能体与用户和环境的交互作为输入，并输出标量奖励。这允许奖励以取决于用户目标的方式从环境中选择或组合信号。例如，用户可能指定一个广泛的目标，如"提高我的健康水平"，而奖励函数可能返回用户心率、睡眠时长和步数的函数。或者用户可能指定"帮助我学习西班牙语"的目标，奖励函数可以返回用户的西班牙语考试成绩。此外，用户可以在学习过程中提供反馈，例如他们的满意度，这可用于微调奖励函数。随后，奖励函数可以随着时间调整，以改进其选择或组合信号的方式，并识别和纠正任何不一致。这也可以理解为双层优化过程，将用户反馈作为顶层目标进行优化，并在低层优化来自环境的基于现实的信号。通过这种方式，少量的人类数据可能促进大量的自主学习。规划与推理经验时代会改变AI 智能体规划和推理的方式吗？近期，利用能够推理或通过语言"思考"的大语言模型取得了显著进展，这些模型在输出回应前会遵循思维链（chain of thought）[16]。从概念上讲，大语言模型可以作为通用计算机 [30]：它们可以将 token 附加到自己的上下文中，使其能够在输出最终结果前执行任意算法。在人类数据时代，这些推理方法被明确设计用来模仿人类思维过程。例如，大语言模型被引导生成类人思维链 [16]，模仿人类思考的轨迹 [42]，或者强化与人类示例相匹配的思考步骤 [18]。推理过程可能会经过微调，以生成与人类专家确定的正确答案相匹配的思考轨迹 [44]。 ...

字节seed：ReTool：LLM中策略性工具使用的强化学习

摘要虽然通过强化学习（RL）训练的推理模型（如 DeepSeek R1）在文本推理方面表现出色，但它们在需要结构化问题解决的场景中面临困难，例如几何推理、简洁计算或复杂方程求解——这些恰恰是计算工具（如代码解释器 CI）展现出明显优势的领域。为了弥合这一差距，我们提出了 ReTool，它通过工具集成学习增强长篇推理能力，包括两个关键特性：(1) 在自然语言推理过程中动态穿插实时代码执行，以及 (2) 一种自动化的强化学习范式，允许策略在执行过程中进行多轮实时代码执行，并基于结果反馈教导模型学习何时以及如何调用工具。 ReTool 采用系统化的训练框架，首先进行合成冷启动数据生成，产生代码增强的长篇推理轨迹，用于微调基础模型。随后的强化学习训练利用任务结果作为奖励信号，迭代完善模型的工具使用策略，使其能够自主发现最佳工具调用模式，无需人类先验知识。在具有挑战性的 MATH 奥赛基准 AIME 上的实验证明了 ReTool 的优越性：我们的 32B 模型在 400 个训练步骤中达到了 67% 的准确率，在效率和性能上大幅超越了基于纯文本的强化学习基线（40% 准确率，1080 步骤）。值得注意的是，ReTool-32B 在扩展设置中获得了 72.5% 的准确率，比 OpenAI 的 o1-preview 高出 27.9%。进一步分析揭示了诸如代码自我修正等涌现行为，标志着模型经历了"顿悟时刻"，自主掌握了自适应工具使用能力。这些发现凸显了结果驱动的工具集成在推进复杂数学推理方面的巨大潜力，并为混合神经-符号系统提供了新的见解。引言在这项工作中，我们采纳强化学习范式，并引入 ReTool，一个工具（Tool）增强的强（Reinforcement）化学习框架，其明确设计旨在引导大语言模型在推理过程中利用外部计算工具达到最优策略。ReTool 包含两个关键组成部分：首先，我们开发了一个数据构建流程，以策划一个高质量的冷启动数据集，该数据集明确演示了何时以及如何调用代码解释器。这教会了模型在工具使用和执行结果分析方面的初步能力。然后，我们应用工具增强的强化学习来训练模型发现最优的工具操作推理策略，并通过基于结果的奖励调整其行为，这超越了仅靠监督学习所能捕捉到的范围。在长链推理过程中，策略模型通过灵活编写代码块并从沙盒式代码解释器获取实时执行结果来辅助后续思考，从而进行展开。我们在具有挑战性的数学奥林匹克基准 AIME2024 和 AIME2025 上评估 ReTool。基于 Qwen2.5-32B-Instruct 构建，我们的模型仅用 400 个训练步骤就在 AIME2024 上达到了 67.0% 的准确率，显著优于基于文本的强化学习基线，后者用 1080 个训练步骤达到了 40.0% 的准确率。这些显著的提升突出表明，将工具使用显式地建模为决策过程的一部分，不仅突破了模型推理能力的极限，也提高了训练效率。此外，当在 DeepSeek-R1-Distill-Qwen-32B 上训练时，我们的模型展现了进一步的改进，超越了诸如 QwQ-32B-Preview、s1-32B 和 OpenAI o1-preview 等有竞争力的基线。这表明强化学习训练过程激发了更高效的问题解决策略。另外，我们基于 Qwen2.5-32B-Instruct 的冷启动模型在 AIME2024 上达到了 40.9% 的准确率，与基于相同骨干网络的基于文本的强化学习基线（40.0%）相当，并显著超过了未经训练的 Qwen2.5-32B-Instruct（26.7%）。这些结果表明，我们精心策划的数据集有效地捕捉了可执行推理轨迹中的工具使用模式，并且集成代码解释器的训练对推理性能有积极贡献。我们进一步通过强化学习训练对代码解释器的认知行为进行了全面分析，并确定了几个关键发现。我们的模型展示了增强的代码利用能力，使其能够使用更准确和复杂的代码片段；它还学会了适当地调用工具，自适应地选择工具，有效地组织工具调用，并通过涌现的代码自我修正能力迭代地优化推理。 ...

字节Seed：Seed-Thinking-v1.5，超过R1

《Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning》摘要我们介绍 Seed-Thinking-v1.5，它能够在响应前通过思考进行推理，从而在广泛的基准测试中提高了性能。Seed-Thinking-v1.5 在 AIME 2024 上达到 86.7 分，在 Codeforces 上达到 55.0 分，在 GPQA 上达到 77.3 分，展示了在 STEM 和编码方面出色的推理能力。除了推理任务，该方法在不同领域也表现出显著的泛化能力。例如，在非推理任务上，它在胜率方面超过 DeepSeek R1 8%，表明其更广泛的适用性。与其他最先进的推理模型相比，Seed-Thinking-v1.5 是一个专家混合模型 (MoE)，规模相对较小，具有 200 亿激活参数和 2000 亿总参数。作为我们评估泛化推理能力的一部分，我们开发了两个内部基准测试：BeyondAIME 和 Codeforces，这两个基准测试都将公开发布以支持未来的研究。 1 引言在这项工作中，我们提出了一个名为 Seed-Thinking-v1.5 的新推理模型。该模型在推理任务和非推理任务中均表现出强大的性能。数学推理: 在数学竞赛方面，Seed-Thinking-v1.5 在 AIME 2024 上取得了 86.7 分，与 o3-mini-high 的表现持平，并显著优于 o1 和 DeepSeek R1，展现出具有竞争力的实力。由于 AIME 2024 不再能提供足够的区分度，我们构建了一个更具挑战性的评估集，名为 BeyondAIME。BeyondAIME 中的所有问题均由人类专家全新策划设计，旨在最大限度地减少通过记忆或猜测解决问题的可能性。虽然 Seed-Thinking-v1.5 在 BeyondAIME 上的表现超越了 o1 和 R1，但与 o3 和 Gemini pro 2.5 相比，仍存在性能差距。这也进一步证明了这个新评估集的区分能力。 ...

字节Seed：PPO 在长思维链（Long-CoT）中崩溃的背后是什么？价值优化掌握着秘密

近端策略优化 $$ \mathcal{L}^{CLIP}(\theta)=\hat{\mathbb{E}}_t\left[\min\left(r_t(\theta)\hat{A}_t,\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right] $$$$ \hat{A}_t=\sum_{l = 0}^{T-t-1}(\gamma\lambda)^l\delta_{t + l} $$ 其中 $\gamma$ 是折扣因子，$\lambda\in[0, 1]$ 是 GAE 参数，而 $\delta_t=r_t+\gamma V(s_{t + 1})-V(s_t)$ 是时序差分 (TD) 误差。此处，$r_t$ 是时间步 $t$ 的奖励，$V(s)$ 是价值函数。由于在 RLHF 中通常将折扣因子设为 $\gamma = 1.0$，为简化表示，我们在本文后续章节中省略了 $\gamma$。识别并解决 PPO 在长 CoT 任务中的失败模式在本节中，我们展示 PPO 在长 CoT 任务中的一个常见失败模式，并从理论和实证角度考察其与预训练及训练中价值偏差的关系。随后，我们提出实用的解决方案来改进 PPO，使其能够避免此类失败。 PPO 在长思维链 (CoT) 任务中的失败模式在从人类反馈中进行强化学习 (Reinforcement Learning from Human Feedback, RLHF) 的领域应用 PPO 时，有两种常见的做法如下：采用默认的广义优势估计 (Generalized Advantage Estimation, GAE)，通常设置 $\lambda = 0.95$。使用一个训练充分的奖励模型 (reward model) 来初始化价值模型 (value model)。第一种做法起源于传统的强化学习文献，在这些文献中，PPO 已经在 Mujoco 和 Atari 等环境中得到了广泛的测试。在这些环境中，奖励 (rewards) 会沿着轨迹 (trajectory) 累积，导致回报 (return) 具有高方差。因此，方差缩减 (variance reduction) 变得十分必要。第二种做法则自然地源于奖励模型和价值模型之间的明显相似性，因为这两种模型都被训练用于预测关于响应 (response) 的标量信息 (scalar information)。然而，我们的实验揭示，将 PPO 轻率地应用于需要长思维链 (CoT) 的任务不可避免地会导致失败，具体如图1所示。 ...

字节Seed新作：VAPO：使用基于价值的强化学习框架进行长思维链推理

摘要我们提出VAPO（面向推理模型的基于价值的增强型近端策略优化框架），这是一个专为推理模型设计的新型框架，立足于价值导向范式。在AIME 2024数据集的基准测试中，基于Qwen 32B预训练模型构建的VAPO获得了60.4的最高分。在完全相同的实验条件下进行直接对比时，VAPO的表现超过先前报告的DeepSeek-R1-Zero-Qwen-32B和DAPO模型10分以上。 VAPO的训练过程以稳定性和效率见长。它仅需5,000步即可达到最先进的性能水平。此外，在多次独立运行测试中，未出现任何训练崩溃现象，充分证明了其可靠性。本研究深入探讨了使用基于价值的强化学习框架进行长思维链（long-CoT）推理。我们识别出影响基于价值方法的三个关键挑战：价值模型偏差、异构序列长度以及奖励信号稀疏性。通过系统化设计，VAPO提供了一个综合解决方案，有效缓解了这些挑战，从而提升了长思维链推理任务的性能表现。引言在大语言模型（LLM）的强化学习（RL）训练中，像 GRPO 和 DAPO 这样的无价值方法已展现出显著的有效性。这些方法消除了学习价值模型的计算开销，而是仅根据整个轨迹的最终奖励来计算优势。然后，轨迹级别的优势被直接分配为序列中每个位置的 Token 级别优势。当训练一个可靠的价值模型特别具有挑战性时，无价值方法通过对一个组内多个轨迹的奖励进行平均，为优势计算提供了一个准确且稳定的基线。这种基于组的奖励聚合减轻了对显式价值估计的需求，而显式价值估计在复杂任务中常常存在不稳定性。因此，无价值方法在解决诸如长思维链（CoT）推理等难题方面获得了显著的关注，大量的研究工作都集中在优化其框架上。尽管不基于价值的方法已取得了显著成功，但我们认为，如果能够克服训练价值模型中的挑战，基于价值的方法则拥有更高的性能上限。首先，价值模型通过精确追踪每个动作对后续回报的影响，能够实现更精确的信用分配，从而促进更细粒度的优化。这对于复杂的推理任务尤为关键，因为在这类任务中，单个步骤的细微错误往往会导致灾难性的失败，而对于在不基于价值的框架下进行优化的模型而言，这仍然是一个挑战。其次，相较于不基于价值的方法中利用蒙特卡洛方法得出的优势估计，价值模型能为每个 Token 提供方差更低的值估计，进而增强训练的稳定性。此外，一个训练良好的价值模型展现出内在的泛化能力，使其能够更有效地利用在线探索过程中遇到的样本。这显著提升了强化学习算法的优化上限。因此，尽管为复杂问题训练价值模型面临着艰巨挑战，但克服这些困难所能带来的潜在收益是巨大的。然而，在长思维链（Long CoT）任务中训练一个完美的价值模型存在显著的挑战。第一，鉴于轨迹漫长以及以自举方式学习价值存在不稳定性，学习一个低偏差的价值模型并非易事。第二，同时处理长响应和短响应也颇具挑战性，因为它们在优化过程中可能对偏差-方差权衡表现出截然不同的偏好。最后但同样重要的是，来自验证者的奖励信号的稀疏性，因长思维链模式而进一步加剧，这内在地要求采用更好的机制来平衡探索与利用。为应对上述挑战并充分释放基于价值的方法在推理任务中的潜力，我们提出了Value Augmented proximal Policy Optimization（VAPO），一个基于价值的强化学习训练框架。VAPO 从 VC-PPO 和 DAPO 等先前的研究工作中汲取灵感，并对其概念进行了进一步扩展。我们将我们的主要贡献总结如下：我们引入了 VAPO，这是首个在长 COT 任务上显著优于无价值方法的基于价值的强化学习 (RL) 训练框架。VAPO 不仅表现出显著的性能优势，而且还展示了更高的训练效率，简化了学习过程，并突显了其作为该领域新基准的潜力。我们提出了长度自适应 GAE (Length-adaptive GAE)，它根据响应长度自适应地调整 GAE (Generalized Advantage Estimation) 计算中的 $\lambda$ 参数。通过这样做，它有效地满足了与长度差异极大的响应相关的独特偏差-方差权衡需求。因此，它优化了优势估计过程的准确性和稳定性，特别是在数据序列长度变化广泛的场景中。我们系统地整合了先前工作的技术，例如来自 DAPO 的 Clip-Higher 和 Token 级损失 (Token-level Loss)，来自 VC-PPO 的价值预训练 (Value-Pretraining) 和解耦 GAE (Decoupled-GAE)，来自 SIL 的自模仿学习 (self-imitation learning)，以及来自 GRPO 的组采样 (Group-Sampling)。此外，我们通过消融研究进一步验证了这些技术的必要性。 VAPO 是一个有效的强化学习系统，它整合了这些改进。这些改进平稳地协同作用，产生的整体效果优于各独立部分的总和。我们使用 Qwen2.5-32B 预训练模型进行实验，确保在所有实验中均未引入 SFT 数据，以保持与相关工作（DAPO 和 DeepSeek-R1-Zero-Qwen-32B）的可比性。VAPO 的性能得分相较于原始 PPO 从 5 分提升至 60 分，超越了先前最先进的（SOTA）不依赖价值函数的方法 DAPO 10 分。更重要的是，VAPO 非常稳定 —— 我们在训练期间没有观察到任何崩溃，并且多次运行的结果高度一致。 ...

Sutton: 苦涩的教训

纵观70年人工智能研究史，我们获得的最重要启示是：那些充分利用计算的通用方法，终将以显著优势成为最有效的解决方案。其根本原因在于摩尔定律，或者说更广义的"单位计算成本持续指数级下降"规律。多数人工智能研究默认可用计算资源恒定（这种情况下利用人类知识成为提升性能的主要途径），但只要将时间跨度拉长到略超典型研究周期，计算能力的数量级增长就变得不可避免。研究者为获得短期可见的改进，往往诉诸领域专业知识，但从长远来看，真正起决定性作用的唯有对计算的极致利用。这两种方法本可并行不悖，但现实往往顾此失彼——任何一方的投入都会挤占另一方的资源，研究者也会形成心理层面的路径依赖。更关键的是，依赖人类知识的方法常使系统复杂化，反而不利于通用计算方法发挥最大效能。人工智能发展史上充满了对这种苦涩教训的迟来认知，审视几个典型案例颇具启发价值。在计算机象棋领域，1997年击败世界冠军卡斯帕罗夫的方法基于海量深度搜索技术。当时，这令大多数致力于利用人类对象棋特殊结构理解的计算机象棋研究者深感挫败。当基于专用软硬件的简单搜索方法展现出碾压性优势时，这些依赖人类知识的象棋研究者难以心服口服。他们辩称"暴力"搜索或许侥幸取胜，但绝非普适性策略，况且完全不同于人类的下棋方式。这些研究者原本期待基于人类经验的方法能获胜，最终却不得不面对现实落差。相似的技术演进在计算机围棋领域重现，只是时间上延后了约二十年。早期研究投入大量精力试图通过人类棋理或围棋特性规避搜索，但当大规模搜索被有效运用后，这些努力不仅徒劳无功，甚至成为技术桎梏。通过自对弈学习训练价值函数的方法同样至关重要（该技术也应用于其他棋类乃至象棋领域，尽管在1997年首次击败人类冠军的程序中学习机制尚未起主要作用）。自对弈学习与广义的机器学习，如同搜索技术一样，能够充分释放海量计算的潜力。搜索与学习构成了人工智能研究中驾驭大规模计算的两大支柱。在计算机围棋领域，如同象棋领域，研究者最初执着于运用人类智慧（以减少搜索需求），直到后期转向拥抱搜索与学习才实现质的飞跃。在语音识别领域，20世纪70年代DARPA曾主办过一场早期竞赛。参赛方案中既有大量利用人类知识的特殊方法——包括词汇知识、音素知识、人类声道结构知识等，也有基于隐马尔可夫模型（HMM）的新型统计方法，后者需要更多计算资源。最终统计方法再次战胜了基于人类知识的方法。这引发了整个自然语言处理领域长达数十年的范式转变，统计与计算逐渐成为主导力量。近年来深度学习在语音识别领域的崛起，正是这一持续趋势的最新注脚。深度学习方法对人类知识的依赖更少，通过海量训练集的学习与更强大的算力，构建出性能飞跃的语音识别系统。与棋类博弈领域相似，研究者总是试图按照自己理解的思维模式构建系统——将既有认知植入系统——但当摩尔定律带来充足算力并找到有效利用方式时，这种努力往往适得其反，造成研究者时间资源的巨大浪费。计算机视觉领域也呈现类似规律。早期方法将视觉视为边缘检测、广义柱体识别或SIFT特征提取的过程。但如今这些方法已被全面摒弃。现代深度学习神经网络仅使用卷积概念与特定不变性原则，却实现了更优越的性能。这个教训足够深刻——作为研究领域，我们仍未完全吸取教训，仍在重复同类错误。要认清并有效抵制这种倾向，必须理解这类错误的内在吸引力。我们必须接受这个苦涩的启示：将人类自认为的思维模式植入系统终将失败。这一教训基于四项历史观察：1）AI研究者常试图将知识植入智能体；2）短期看这确实有效并能满足研究者成就感；3）长期将导致发展停滞甚至阻碍进步；4）突破性进展最终来自通过搜索与学习实现计算规模化的对立方法。这种成功常带有苦涩意味且难以被完全接纳，因为它战胜了备受青睐的人类中心主义方法。苦涩教训的启示之一是通用方法的强大力量——那些能随着计算规模持续扩展的方法，即使可用算力已非常庞大。目前具备无限扩展潜力的两大方法是搜索与学习。第二点启示是心智内容的极端复杂性：我们应停止寻求描述心智内容的简单范式（如空间、物体、多智能体或对称性的简单理解）。这些都属于外部世界任意且本质复杂的组成部分，不应被硬编码到系统中，因其复杂性永无止境；我们应构建能发现并捕捉这种任意复杂性的元方法。这些方法的核心在于寻找优质近似解，但搜索过程应由方法本身而非人类完成。我们需要能像人类一样自主发现的AI智能体，而非固化既有发现的系统。植入已有发现只会阻碍对发现过程的本质理解。