Vapo | 一只小茄墩

摘要我们提出VAPO（面向推理模型的基于价值的增强型近端策略优化框架），这是一个专为推理模型设计的新型框架，立足于价值导向范式。在AIME 2024数据集的基准测试中，基于Qwen 32B预训练模型构建的VAPO获得了60.4的最高分。在完全相同的实验条件下进行直接对比时，VAPO的表现超过先前报告的DeepSeek-R1-Zero-Qwen-32B和DAPO模型10分以上。 VAPO的训练过程以稳定性和效率见长。它仅需5,000步即可达到最先进的性能水平。此外，在多次独立运行测试中，未出现任何训练崩溃现象，充分证明了其可靠性。本研究深入探讨了使用基于价值的强化学习框架进行长思维链（long-CoT）推理。我们识别出影响基于价值方法的三个关键挑战：价值模型偏差、异构序列长度以及奖励信号稀疏性。通过系统化设计，VAPO提供了一个综合解决方案，有效缓解了这些挑战，从而提升了长思维链推理任务的性能表现。引言在大语言模型（LLM）的强化学习（RL）训练中，像 GRPO 和 DAPO 这样的无价值方法已展现出显著的有效性。这些方法消除了学习价值模型的计算开销，而是仅根据整个轨迹的最终奖励来计算优势。然后，轨迹级别的优势被直接分配为序列中每个位置的 Token 级别优势。当训练一个可靠的价值模型特别具有挑战性时，无价值方法通过对一个组内多个轨迹的奖励进行平均，为优势计算提供了一个准确且稳定的基线。这种基于组的奖励聚合减轻了对显式价值估计的需求，而显式价值估计在复杂任务中常常存在不稳定性。因此，无价值方法在解决诸如长思维链（CoT）推理等难题方面获得了显著的关注，大量的研究工作都集中在优化其框架上。尽管不基于价值的方法已取得了显著成功，但我们认为，如果能够克服训练价值模型中的挑战，基于价值的方法则拥有更高的性能上限。首先，价值模型通过精确追踪每个动作对后续回报的影响，能够实现更精确的信用分配，从而促进更细粒度的优化。这对于复杂的推理任务尤为关键，因为在这类任务中，单个步骤的细微错误往往会导致灾难性的失败，而对于在不基于价值的框架下进行优化的模型而言，这仍然是一个挑战。其次，相较于不基于价值的方法中利用蒙特卡洛方法得出的优势估计，价值模型能为每个 Token 提供方差更低的值估计，进而增强训练的稳定性。此外，一个训练良好的价值模型展现出内在的泛化能力，使其能够更有效地利用在线探索过程中遇到的样本。这显著提升了强化学习算法的优化上限。因此，尽管为复杂问题训练价值模型面临着艰巨挑战，但克服这些困难所能带来的潜在收益是巨大的。然而，在长思维链（Long CoT）任务中训练一个完美的价值模型存在显著的挑战。第一，鉴于轨迹漫长以及以自举方式学习价值存在不稳定性，学习一个低偏差的价值模型并非易事。第二，同时处理长响应和短响应也颇具挑战性，因为它们在优化过程中可能对偏差-方差权衡表现出截然不同的偏好。最后但同样重要的是，来自验证者的奖励信号的稀疏性，因长思维链模式而进一步加剧，这内在地要求采用更好的机制来平衡探索与利用。为应对上述挑战并充分释放基于价值的方法在推理任务中的潜力，我们提出了Value Augmented proximal Policy Optimization（VAPO），一个基于价值的强化学习训练框架。VAPO 从 VC-PPO 和 DAPO 等先前的研究工作中汲取灵感，并对其概念进行了进一步扩展。我们将我们的主要贡献总结如下：我们引入了 VAPO，这是首个在长 COT 任务上显著优于无价值方法的基于价值的强化学习 (RL) 训练框架。VAPO 不仅表现出显著的性能优势，而且还展示了更高的训练效率，简化了学习过程，并突显了其作为该领域新基准的潜力。我们提出了长度自适应 GAE (Length-adaptive GAE)，它根据响应长度自适应地调整 GAE (Generalized Advantage Estimation) 计算中的 $\lambda$ 参数。通过这样做，它有效地满足了与长度差异极大的响应相关的独特偏差-方差权衡需求。因此，它优化了优势估计过程的准确性和稳定性，特别是在数据序列长度变化广泛的场景中。我们系统地整合了先前工作的技术，例如来自 DAPO 的 Clip-Higher 和 Token 级损失 (Token-level Loss)，来自 VC-PPO 的价值预训练 (Value-Pretraining) 和解耦 GAE (Decoupled-GAE)，来自 SIL 的自模仿学习 (self-imitation learning)，以及来自 GRPO 的组采样 (Group-Sampling)。此外，我们通过消融研究进一步验证了这些技术的必要性。 VAPO 是一个有效的强化学习系统，它整合了这些改进。这些改进平稳地协同作用，产生的整体效果优于各独立部分的总和。我们使用 Qwen2.5-32B 预训练模型进行实验，确保在所有实验中均未引入 SFT 数据，以保持与相关工作（DAPO 和 DeepSeek-R1-Zero-Qwen-32B）的可比性。VAPO 的性能得分相较于原始 PPO 从 5 分提升至 60 分，超越了先前最先进的（SOTA）不依赖价值函数的方法 DAPO 10 分。更重要的是，VAPO 非常稳定 —— 我们在训练期间没有观察到任何崩溃，并且多次运行的结果高度一致。 ...