GRPO

《DAPO: an Open-Source LLM Reinforcement Learning System at Scale》摘要推理规模化使大语言模型具备了前所未有的推理能力，其中强化学习是引发复杂推理的核心技术。然而，最先进的推理大语言模型的关键技术细节往往被隐藏（如 OpenAI 的博客和 DeepSeek R1 技术报告），因此社区仍然难以复现他们的强化学习训练结果。我们提出了解耦裁剪和动态采样策略优化（Decoupled Clip and Dynamic sAmpling Policy Optimization，DAPO）算法，并完全开源了一个最先进的大规模强化学习系统，该系统使用 Qwen2.5-32B 基础模型在 AIME 2024 上达到了 50 分。与之前隐藏训练细节的工作不同，我们介绍了算法的四个关键技术，使大规模 LLM 强化学习取得成功。此外，我们开源了基于 verl 框架构建的训练代码，以及精心策划和处理的数据集。我们开源系统的这些组件增强了可复现性，并支持未来大规模 LLM 强化学习的研究。 1 引言测试时扩展（如 OpenAI 的 O1 和 DeepSeek 的 R1 ）为大语言模型（LLM）[3-7] 带来了深刻的范式转变。测试时扩展支持更长的思维链推理，并诱导复杂的推理行为，使模型在 AIME 和 Codeforces 等竞争性数学和编程任务中表现卓越。推动这一革命的核心技术是大规模强化学习（RL），它引发了诸如自我验证和迭代强化等复杂推理行为。然而，可扩展 RL 训练的实际算法和方法仍然是个谜，在现有推理模型的技术报告中被隐藏。在本文中，我们揭示了大规模 RL 训练中的重大障碍，并开源了一个可扩展的 RL 系统，包括完全开源的算法、训练代码和数据集，提供了具有行业级 RL 结果的民主化解决方案。我们以 Qwen2.5-32B [12] 作为 RL 的预训练模型进行实验。在我们初始的 GRPO 运行中，在 AIME 上仅实现了 30 分——远低于 DeepSeek 的 RL（47 分）。深入分析表明，朴素的 GRPO 基线存在几个关键问题，如熵崩塌、奖励噪声和训练不稳定性。更广泛的社区在复现 DeepSeek 的结果时遇到了类似的挑战，这表明 R1 论文中可能省略了开发行业级、大规模且可复现的 RL 系统所需的关键训练细节。 ...

http://joschu.net/blog/kl-approx.html $$ K L[q, p]=\sum_x q(x) \log \frac{q(x)}{p(x)}=E_{x \sim q}\left[\log \frac{q(x)}{p(x)}\right] $$ 它解释了一个我在各种代码中使用过的技巧，我将 $K L[q, p]$ 近似为 $\frac{1}{2} (\log p(x) - \log q(x))^2$ 的样本平均值，对于来自 $q$ 的样本 $x$，而不是更标准的 $\log \frac{q(x)}{p(x)}$。这篇文章将解释为什么这个表达式是 KL 的一个好的（虽然有偏差的）估计器，以及如何在保持其低方差的同时使其无偏差。我们计算 $KL$ 的选项取决于我们对 $p$ 和 $q$ 有什么样的访问权限。在这里，我们将假设我们可以计算任何 $x$ 的概率（或概率密度）$p(x)$ 和 $q(x)$，但我们无法解析地计算 $x$ 上的总和。为什么我们不能解析地计算它呢？精确计算它需要太多的计算或内存。没有闭合形式的表达式。我们可以通过仅存储对数概率（log-prob）来简化代码，而无需存储整个分布。如果KL散度仅用作诊断工具，这会是一个合理的选择，就像在强化学习中经常出现的情况一样。估计总和或积分的最常见策略是使用蒙特卡洛估计。给定样本 $x_1, x_2, \dots \sim q$，我们如何构建一个好的估计？一个好的估计量是无偏的（它具有正确的均值）并且具有低方差。我们知道一个无偏估计量（在来自 $q$ 的样本下）是 $\log \frac{q(x)}{p(x)}$。然而，它具有高方差，因为它对于一半的样本是负的，而KL散度始终是正的。让我们将这个朴素估计量称为 $k_1 = \log \frac{q(x)}{p(x)} = - \log r$，其中我们定义了比率 $r=\log \frac{p(x)}{q(x)}$，它将在后续计算中频繁出现。 ...

DAPO：大规模开源 LLM 强化学习系统

Approximating KL Divergence: k1 k2 k3是什么