RL | 一只小茄墩

Open R1 项目第二周总结与展望

摘要我们现在已经进入了 Open R1 项目的第二周，该项目旨在重建 DeepSeek R1 缺失的部分——特别是训练管道和合成数据。分享 OpenR1-Math-220k 的构建：这是我们首个用于数学推理的大规模数据集！介绍社区在策划用于微调的小型、高质量数据集方面取得的一些令人兴奋的进展，以及关于如何在训练和推理阶段控制推理模型的思维链长度的见解。 OpenR1-Math-220k 数据集 DeepSeek R1 的主要优势之一是它能够通过知识蒸馏将高级推理能力迁移到较小的模型。 DeepSeek 团队通过生成 60 万个推理轨迹并微调一系列 Qwen 和 Llama 模型证明了这一点，表明直接从 R1 进行知识蒸馏可以在无需强化学习的情况下实现具有竞争力的推理性能。值得注意的是，DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩，超过了像 QwQ-32B-Preview 这样更大的模型。然而，用于蒸馏的推理轨迹尚未公开，这促使社区独立地重新创建类似的数据集。到目前为止，社区已经发布了多个开放数据集，包括 OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1 和 LIMO。 🐳 隆重推出 OpenR1-Math-220k，这是一个大规模的数学推理数据集，它利用 512 个 H100 在本地生成，且每个问题都对应多个答案。为了创建 OpenR1-Math-220k，我们与 Numina 展开合作，他们开发了广受欢迎的 NuminaMath-CoT 数据集的全新版本。与现有数据集相比，OpenR1 数据集的新特性：80 万条 R1 推理轨迹：我们使用 DeepSeek R1 为 40 万道问题生成了两个答案。经过筛选的数据集包含 22 万道问题，并带有正确的推理轨迹。本地运行 512 个 H100: 我们没有依赖 API，而是利用 vLLM 和 SGLang 在我们的科学集群上本地运行生成，每天生成 18 万条推理过程。基于 NuminaMath 1.5: 我们专注于数学推理过程，并为 NuminaMath 1.5 中的问题生成答案，NuminaMath 1.5 是 NuminaMath-CoT 数据集的改进版本。自动过滤：我们应用 Math Verify 来仅保留至少有一个正确答案的问题。我们还利用 Llama3.3-70B-Instruct 作为一个判断器，以检索更多正确的例子（例如，对于答案格式错误，无法使用基于规则的解析器验证的情况）。我们通过在我们的数据集上微调 Qwen-7B-Math-Instruct 来匹配 DeepSeek-Distill-Qwen-7B 的性能。通过展示可扩展的、高质量的推理数据生成，我们希望这个流程可以扩展到数学以外的领域，例如代码生成。 ...

PPO训练技巧总览

Jian Hu’s Blogpost 以下所有实例均可在Jian Hu开发的OpenRLHF 0 - 引言基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）结合近端策略优化（Proximal Policy Optimization, PPO）[1]是一种用于微调大语言模型（Large Language Models, LLMs）的强大方法。该方法使用可靠且高效的PPO算法，结合人类评估者的反馈来提高模型生成响应的质量。然而，使用PPO训练LLMs存在几个挑战。这些包括维持稳定的训练过程，以及实现比直接偏好优化（Direct Preference Optimization, DPO）[2]更好的性能。因此，我们总结了RLHF与PPO的实用训练技巧，以帮助研究人员更轻松地微调LLMs，确保训练稳定性和高性能。 1 - 使用PPO训练LLM的高级技巧我们介绍三类PPO训练技巧：1) LLM特定技巧，2) PPO特定技巧，以及3)来自最新研究的创新策略。LLM特定和PPO特定的技巧已在各种RL框架[3, 4]中实现并证明有效。然而，最近论文中提出的创新策略在特定任务上的适用性仍有待验证。 1.1 - LLM特定技巧 Token级KL惩罚：计算强化学习（RL）模型和监督微调（SFT）模型的响应分布之间的每个token的KL散度[11]。这种散度在训练过程中作为惩罚项被纳入奖励函数。具体来说，每个token的奖励表示如下： $$ r(s_t, a_t) = \textbf{I}(s_t =[\text{EOS}])r(x,y)-\beta \text{KL}(t) $$$$ \text{KL}(t) = \log({\pi_{\theta_{\text{old}}}(a_t|s_t)^{\text{RL}}}/{\pi^{\text{SFT}}(a_t|s_t)} $$ $$t$$ 是否为最后一个token的标识函数。代码链接：utils.py 广义优势估计（Generalized Advantage Estimation, GAE）：GAE[10]是一种TD(λ)回报估计方法，用于估计PPO中的token级奖励。在实践中，我们通常设置$λ=1$，将GAE方法转换为蒙特卡洛估计方法。代码链接：experience_maker.py 将GAE的λ和折扣因子$γ$都设为1，这可以减少值网络引入的偏差。代码链接：OpenRLHF/openrlhf/cli/train_ppo_ray.py 添加SFT损失：在PPO中加入额外的监督下一个token预测损失，与KL散度一起，可以保持SFT模型的预存能力。代码链接：ppo_trainer.py 1.2 - PPO特定技巧模型初始化：在使用PPO训练LLMs时，必须初始化两个模型：演员模型（actor model）和评论家模型（critic model）[6, 7]。具体来说，使用监督微调（SFT）模型初始化演员模型，使用奖励模型初始化评论家模型可以确保PPO训练的效率。代码链接：examples/train_ppo.py Adam学习率：演员模型的Adam学习率大约是SFT模型使用的十分之一。例如，在OpenRLHF中，SFT模型的Adam学习率为5e-6，而演员模型为5e-7。此外，评论家模型的Adam学习率约为SFT模型的两倍，示例率为9e-6。代码链接：train_ppo_llama.sh ...

Reward Hacking in Reinforcement Learning

摘要当强化学习 (RL) AI 智能体利用奖励函数中的缺陷或歧义来获得高奖励，而没有真正学习或完成预期的任务时，就会发生reward hacking。reward hacking的存在是因为 RL 环境通常是不完善的，并且准确地指定奖励函数从根本上具有挑战性。随着大语言模型推广到广泛的任务，并且 RLHF 成为对齐训练的常用方法，大语言模型的 RL 训练中的reward hacking已成为重要挑战。模型学习修改单元测试以通过编码任务，或者响应包含模仿用户偏好的偏差的实例，可能是 AI 模型在现实世界中更广泛自主应用的主要障碍之一。过去关于这个主题的大部分工作都相当理论化，主要集中在定义或论证奖励篡改的存在。然而，针对实际缓解措施的研究，尤其是在以人类反馈强化学习（RLHF）和大语言模型（LLM）为背景的情况下，仍然非常有限。背景强化学习中的奖励函数奖励函数定义了任务，奖励塑造对强化学习中的学习效率和准确性有显著影响。为强化学习任务设计奖励函数常常让人感觉像一门“黑暗艺术”。许多因素导致了这种复杂性：如何将一个大目标分解成小目标？奖励是稀疏的还是密集的？你如何衡量成功？各种选择可能会导致良好或有问题的学习动态，包括不可学习的任务或可被篡改的奖励函数。关于如何在强化学习中进行奖励塑造的研究由来已久。例如，在 Ng et al. 1999 年的论文中，作者研究了如何在马尔可夫决策过程 (MDP) 中修改奖励函数，以使最优策略保持不变。他们发现线性变换是有效的。 $$ F(s, a, s') = \gamma \Phi(s') - \Phi(s) $$ 这将保证折扣后的 $F$ 的总和，$F(s_1, a_1, s_2) + \gamma F(s_2, a_2, s_3) + \dots$，最终结果为 0。如果 $F$ 是这样一个基于势的塑造函数，那么它是确保 $M$ 和 $M’$ 共享相同最优策略的充分且必要条件。 $$ \begin{aligned} Q_{M^{\prime}}^*(s, a) & =Q_M^*(s, a)-\Phi(s) \\ V_{M^{\prime}}^*(s, a) & =V_M^*(s, a)-\Phi(s) \end{aligned} $$这种形式的奖励塑造允许我们将启发式方法融入到奖励函数中，以加速学习，而不会影响最优策略。 ...

s1: simple test-time scaling

摘要 test-time scaling 利用额外的测试时计算来提高性能。最近，OpenAI 的 o1 模型展示了这种能力，但没有公开分享其方法，这导致了许多复制尝试。我们寻求实现测试时缩放和强大推理性能的最简单方法。首先，我们策划了一个==小型数据集 s1K==，其中包含 1000 个问题，并配有推理过程的轨迹，这些轨迹基于我们通过消融实验验证的三个标准：难度、多样性和质量。其次，我们开发了==预算强制方法来控制测试时计算，具体做法是强制终止模型的思考过程，或者在模型尝试结束时通过多次附加“等待”来延长其思考过程。这可以引导模型仔细检查其答案，通常会修正不正确的推理步骤==。在对 s1K 上的 Qwen2.5-32B-Instruct 大语言模型进行监督微调，并为其配备预算强制后，我们的模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出 27%（MATH 和 AIME24）。此外，使用预算强制缩放 s1-32B 允许在没有测试时干预的情况下将其性能外推：在 AIME24 上从 50% 提高到 57%。引言 DeepSeek R1 成功地复制了 o1 级别的性能，也采用了通过数百万样本和多个训练阶段的强化学习。然而，尽管有大量的 o1 复制尝试，但没有一个公开复制了清晰的测试时缩放行为。因此，我们提出问题：==实现test-time scaling和强大的推理性能的最简单方法是什么？== 我们证明，仅使用1000个样本进行下一个 Token 预测训练，并通过一种简单的测试时技术（我们称之为预算强制）来控制思考时长，可以得到一个强大的推理模型，其性能随着测试时计算量的增加而扩展。具体来说，我们构建了 s1K，它包含1000个精心策划的问题，这些问题与从 Gemini Thinking Experimental 中提取的推理轨迹和答案配对。我们对一个现成的预训练模型在我们的少量数据集上进行了监督微调（SFT），仅需在 16 个 H100 GPU 上训练 26 分钟。训练后，我们使用预算强制来控制模型在测试时花费的计算量： (I) 如果模型生成的思考 Token 超过了期望的限制，我们将通过附加一个思考结束 Token 分隔符来强制结束思考过程。以这种方式结束思考会使模型过渡到生成答案。 (II) 如果我们希望模型在问题上花费更多的测试时计算量，我们会抑制思考结束 Token 分隔符的生成，而是将“等待”附加到模型当前的推理轨迹中，以鼓励更多的探索。有了这个简单的配方——在 1000 个样本上进行 SFT 和测试时预算强制——我们的模型 s1-32B 表现出测试时扩展。此外，s1-32B 是最节省样本的推理模型，并且优于像 OpenAI 的 o1-preview 这样的闭源模型。我们进行了广泛的消融实验，目标是 (a) 我们选择的 1000 个 (1K) 推理样本和 (b) 我们的测试时扩展。对于 (a)，我们发现将难度、多样性和质量度量共同纳入我们的选择算法非常重要。随机选择、选择具有最长推理轨迹的样本或仅选择最大多样性的样本都会导致性能显著下降（在 AIME24 上平均下降约 ->30%）。在我们包含 59K 个示例的完整数据池（s1K 的超集）上进行训练，并不能比我们的 1K 选择提供实质性的提升。这突出了仔细数据选择的重要性，并呼应了先前关于指令微调的发现。对于 (b)，我们为测试时扩展方法定义了期望，以比较不同的方法。预算强制导致最佳的扩展，因为它具有完美的控制性，并且具有清晰的正斜率，从而带来强大的性能。 ...

DeepSeek-R1技术报告详解

几个要点数据层面 a. 大规模人工标注还是太麻烦了，==探索无需人工标注的方法== -> 跳过SFT直接上RL b. a步骤基础上加上一点人工标注作为==冷启动==，会好很多 -> 小小SFT一下，还是不错训练层面 a. RL模型：==Group Relative Policy Optimization== b. 奖励：==准确性奖励+格式化奖励==。试过当红的过程奖励和MTCS，最终都放弃 c. 振奋人心的自我进化时刻和==顿悟==时刻！ c. SFT冷启动一下效果会更好。也就是==pretrain+SFT+RLHF的pipeline依旧是上限最高的== d. 对小模型来说，==从大模型蒸馏依旧是天花板最高的方案== 模型开源 a. DeepSeek-R1-Zero: DeepSeek-V3-Base作为基础模型+RL b. DeepSeek-R1: DeepSeek-V3-Base+SFT冷启动+RL c. 一堆蒸馏的小模型方法概述先前的研究严重依赖大量的监督数据来提升模型性能。在本研究中，我们证明了即使不使用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也可以显著提高推理能力。此外，通过加入少量冷启动数据，性能可以得到进一步提升。在接下来的章节中，我们将介绍：（1）DeepSeek-R1-Zero，它直接将强化学习应用于基础模型，无需任何SFT数据；（2）DeepSeek-R1，它从使用数千个长链式思考（CoT）示例进行微调的检查点开始应用强化学习。（3）将DeepSeek-R1的推理能力提炼到小型密集模型中。 DeepSeek-R1-Zero: 基于基础模型的强化学习收集监督数据非常费劲，希望探索没有任何监督数据情况下的能力，重点关注通过纯粹的强化学习过程进行的自我进化。强化学习算法 Group Relative Policy Optimization 为了节省强化学习的训练成本，我们采用了组相对策略优化（GRPO），它放弃了通常与策略模型大小相同的评论家模型，而是从组得分中估计基线。 $$ \begin{equation} \begin{split} \mathcal{J}_{GRPO}(\theta) &= \mathbb{E}{[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(O|q)]} \\ & \frac{1}{G}\sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i |q)}{\pi_{\theta_{old}}(o_i |q)} A_i, \text{clip} \left( \frac{\pi_\theta(o_i |q)}{\pi_{\theta_{old}}(o_i |q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) - \beta \mathbb{D}_{KL}\left(\pi_{\theta} || \pi_{ref}\right)\right) , \end{split} \label{eq:GRPO-obj} \end{equation} $$$$ \begin{equation} \mathbb{D}_{KL}\left(\pi_{\theta} || \pi_{ref}\right) = \frac{\pi_{ref}(o_i|q)}{\pi_{\theta}(o_i|q)}- \log\frac{\pi_{ref}(o_i|q)}{\pi_{\theta}(o_i|q)} - 1, \end{equation} $$$$ \begin{equation} A_i = \frac{r_i - {\mathrm mean(\{r_1, r_2, \cdots, r_G\})}}{{\mathrm std(\{r_1, r_2, \cdots, r_G\})}}. \end{equation} $$ ...

Group Relative Policy Optimization

从 PPO 到 GRPO 近端策略优化（PPO）是一种 actor-critic 强化学习算法，广泛应用于大语言模型（LLM）的强化学习微调阶段。具体而言，它通过最大化以下替代目标来优化大语言模型：其中，$\pi_{\theta}$ 和 $\pi_{\theta_{old}}$ 分别是当前策略模型和旧策略模型，$q$ 和 $o$ 分别是从问题数据集和旧策略 $\pi_{\theta_{old}}$ 中采样的问题和输出。$\varepsilon$ 是 PPO 中引入的用于稳定训练的裁剪相关超参数。$A_t$ 是优势值，它通过应用广义优势估计（GAE）计算得出，基于奖励 $\{r_{\ge t}\}$ 和一个学习到的价值函数 $V_{\psi}$。因此，在 PPO 中，需要与策略模型一同训练一个价值函数。为了减轻对奖励模型的过度优化，标准做法是在每个 token 的奖励中添加来自参考模型的每个 token 的 KL 散度惩罚，即：其中 $r_\varphi$ 是奖励模型，$ \pi_{ref} $ 是参考模型，通常是初始的 SFT 模型，而 $ \beta $ 是 KL 惩罚的系数。由于 PPO 中使用的价值函数通常是与策略模型大小相当的另一个模型，因此会带来大量的内存和计算负担。此外，在强化学习（RL）训练期间，价值函数被视为计算优势以减少方差的基线。然而，在大语言模型（LLM）的背景下，通常只有最后一个 Token 会被奖励模型赋予奖励分数，这可能会使在每个 Token 上都准确的价值函数的训练变得复杂。为了解决这个问题，我们提出了组相对策略优化（GRPO），它无需像 PPO 那样进行额外的价值函数近似，而是使用针对同一问题生成的多个采样输出的平均奖励作为基线。更具体地说，对于每个问题 $q$，GRPO 从旧策略 $ \pi_{\theta_{old}} $ 中采样一组输出 $ \{o_1, o_2, \cdots, o_G\} $，然后通过最大化以下目标来优化策略模型： ...

SFT 记忆，RL 泛化

摘要监督微调 (SFT) 和强化学习 (RL) 是基础模型广泛采用的后训练技术。然而，它们各自在增强模型泛化能力方面的作用仍不明确。本文研究了 SFT 和 RL 对泛化和记忆的相对影响，重点关注文本和视觉环境。我们引入了 GeneralPoints，一种算术推理卡牌游戏，并考虑了 V-IRL，一个真实世界的导航环境，以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见过的变体。我们发现，RL，特别是当使用基于结果的奖励进行训练时，在基于规则的文本和视觉环境中均能展现出泛化能力。相比之下，SFT 倾向于记忆训练数据，并且在两种情况下都难以泛化到分布外的数据。进一步的分析表明，RL 提升了模型潜在的视觉识别能力，从而有助于其在视觉领域增强泛化能力。尽管 RL 具有更强的泛化能力，但我们发现 SFT 对于有效的 RL 训练仍然至关重要：SFT 稳定了模型的输出格式，使得后续的 RL 能够实现性能的提升。这些研究结果证明了 RL 在复杂的、多模态任务中获取可泛化知识的优势。引言虽然 SFT 和 RL 都被广泛用于基础模型训练，但它们对泛化的独特影响仍然不清楚，这使得构建可靠和鲁棒的 AI 智能体系统具有挑战性。分析基础模型的泛化能力的一个关键挑战是将数据记忆[^1]与可迁移原则的获取分离开来。因此，我们研究了 SFT 或 RL 主要是记忆训练数据，还是学习可以适应新任务变体的可泛化原则这一关键问题。为了解决这个问题，我们关注泛化的两个方面：基于文本的规则泛化和视觉泛化。对于文本规则，我们研究模型将学习到的规则（给定文本提示词）应用于这些规则的变体的能力。对于视觉语言模型 (VLM)，视觉泛化衡量在给定任务中，视觉输入（如颜色和空间布局）变化时性能的一致性。为了研究基于文本和视觉的泛化，我们研究了两个不同的任务，这两个任务体现了基于规则和视觉的变体。我们的第一个任务是 GeneralPoints，这是一个原创的纸牌游戏任务，类似于 RL4VLM 中的 Points24 任务，旨在评估模型的算术推理能力。在 GeneralPoints 中，模型接收四张牌（以文本描述或图像形式呈现），并且需要使用每张牌的数值恰好一次来计算目标数字（默认为 24）。其次，我们采用了 V-IRL，这是一个真实的导航任务，侧重于模型的空间推理能力。 ![关于在视觉导航环境 V-IRL 上，强化学习 (RL) 和监督微调 (SFT) 在分布外 (OOD) 泛化方面的比较研究。 OOD 曲线表示在同一任务上，使用不同的文本动作空间时的性能表现。有关任务的详细描述，请参阅第5.1 我们采用类似于 @zhai2024finetuning 的多步强化学习框架，通过在主干模型上进行监督微调 (SFT) 后实例化强化学习 (RL)，并使用顺序修订公式。在 GeneralPoints 和 V-IRL 中，我们观察到强化学习 (RL) 学习了可泛化的规则（以文本形式表达），其中分布内的性能提升也转移到了未见过的规则。相比之下，监督微调 (SFT) 似乎记住了训练规则，并且无法泛化（例如，参见1）。除了基于文本规则的泛化之外，我们还进一步研究了视觉领域的泛化，并观察到强化学习 (RL) 也泛化到了视觉分布外 (OOD) 任务，而监督微调 (SFT) 仍然表现不佳。作为视觉分布外 (OOD) 泛化能力的副产品，我们的多轮强化学习 (RL) 方法在 V-IRL 小型基准测试中实现了最先进的性能，提高了 [+33.8%] (44.0%$\rightarrow$77.8%)，突显了强化学习 (RL) 的泛化能力。为了理解强化学习 (RL) 如何影响模型的视觉能力，我们对 GeneralPoints 进行了额外的分析，揭示了使用基于结果的奖励函数训练强化学习 (RL) 可以提高视觉识别能力。虽然强化学习 (RL) 表现出比监督微调 (SFT) 更优越的泛化能力，但我们表明监督微调 (SFT) 仍然有助于稳定模型的输出格式，使强化学习 (RL) 能够实现其性能提升。最后但并非最不重要的一点是，我们观察到通过增加最大步数来扩大推理时间计算可以带来更好的泛化。 ...