字节seed:ReTool:LLM中策略性工具使用的强化学习

摘要 虽然通过强化学习(RL)训练的推理模型(如 DeepSeek R1)在文本推理方面表现出色,但它们在需要结构化问题解决的场景中面临困难,例如几何推理、简洁计算或复杂方程求解——这些恰恰是计算工具(如代码解释器 CI)展现出明显优势的领域。为了弥合这一差距,我们提出了 ReTool,它通过工具集成学习增强长篇推理能力,包括两个关键特性:(1) 在自然语言推理过程中动态穿插实时代码执行,以及 (2) 一种自动化的强化学习范式,允许策略在执行过程中进行多轮实时代码执行,并基于结果反馈教导模型学习何时以及如何调用工具。 ReTool 采用系统化的训练框架,首先进行合成冷启动数据生成,产生代码增强的长篇推理轨迹,用于微调基础模型。随后的强化学习训练利用任务结果作为奖励信号,迭代完善模型的工具使用策略,使其能够自主发现最佳工具调用模式,无需人类先验知识。 在具有挑战性的 MATH 奥赛基准 AIME 上的实验证明了 ReTool 的优越性:我们的 32B 模型在 400 个训练步骤中达到了 67% 的准确率,在效率和性能上大幅超越了基于纯文本的强化学习基线(40% 准确率,1080 步骤)。值得注意的是,ReTool-32B 在扩展设置中获得了 72.5% 的准确率,比 OpenAI 的 o1-preview 高出 27.9%。进一步分析揭示了诸如代码自我修正等涌现行为,标志着模型经历了"顿悟时刻",自主掌握了自适应工具使用能力。这些发现凸显了结果驱动的工具集成在推进复杂数学推理方面的巨大潜力,并为混合神经-符号系统提供了新的见解。 引言 在这项工作中,我们采纳强化学习范式,并引入 ReTool,一个工具(Tool)增强的强(Reinforcement)化学习框架,其明确设计旨在引导大语言模型在推理过程中利用外部计算工具达到最优策略。ReTool 包含两个关键组成部分:首先,我们开发了一个数据构建流程,以策划一个高质量的冷启动数据集,该数据集明确演示了何时以及如何调用代码解释器。这教会了模型在工具使用和执行结果分析方面的初步能力。然后,我们应用工具增强的强化学习来训练模型发现最优的工具操作推理策略,并通过基于结果的奖励调整其行为,这超越了仅靠监督学习所能捕捉到的范围。在长链推理过程中,策略模型通过灵活编写代码块并从沙盒式代码解释器获取实时执行结果来辅助后续思考,从而进行展开。 我们在具有挑战性的数学奥林匹克基准 AIME2024 和 AIME2025 上评估 ReTool。基于 Qwen2.5-32B-Instruct 构建,我们的模型仅用 400 个训练步骤就在 AIME2024 上达到了 67.0% 的准确率,显著优于基于文本的强化学习基线,后者用 1080 个训练步骤达到了 40.0% 的准确率。这些显著的提升突出表明,将工具使用显式地建模为决策过程的一部分,不仅突破了模型推理能力的极限,也提高了训练效率。此外,当在 DeepSeek-R1-Distill-Qwen-32B 上训练时,我们的模型展现了进一步的改进,超越了诸如 QwQ-32B-Preview、s1-32B 和 OpenAI o1-preview 等有竞争力的基线。这表明强化学习训练过程激发了更高效的问题解决策略。另外,我们基于 Qwen2.5-32B-Instruct 的冷启动模型在 AIME2024 上达到了 40.9% 的准确率,与基于相同骨干网络的基于文本的强化学习基线(40.0%)相当,并显著超过了未经训练的 Qwen2.5-32B-Instruct(26.7%)。这些结果表明,我们精心策划的数据集有效地捕捉了可执行推理轨迹中的工具使用模式,并且集成代码解释器的训练对推理性能有积极贡献。我们进一步通过强化学习训练对代码解释器的认知行为进行了全面分析,并确定了几个关键发现。我们的模型展示了增强的代码利用能力,使其能够使用更准确和复杂的代码片段;它还学会了适当地调用工具,自适应地选择工具,有效地组织工具调用,并通过涌现的代码自我修正能力迭代地优化推理。 ...

April 19, 2025 · 小茄墩

字节Seed:Seed-Thinking-v1.5,超过R1

《Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning》 摘要 我们介绍 Seed-Thinking-v1.5,它能够在响应前通过思考进行推理,从而在广泛的基准测试中提高了性能。Seed-Thinking-v1.5 在 AIME 2024 上达到 86.7 分,在 Codeforces 上达到 55.0 分,在 GPQA 上达到 77.3 分,展示了在 STEM 和编码方面出色的推理能力。除了推理任务,该方法在不同领域也表现出显著的泛化能力。例如,在非推理任务上,它在胜率方面超过 DeepSeek R1 8%,表明其更广泛的适用性。与其他最先进的推理模型相比,Seed-Thinking-v1.5 是一个专家混合模型 (MoE),规模相对较小,具有 200 亿激活参数和 2000 亿总参数。作为我们评估泛化推理能力的一部分,我们开发了两个内部基准测试:BeyondAIME 和 Codeforces,这两个基准测试都将公开发布以支持未来的研究。 1 引言 在这项工作中,我们提出了一个名为 Seed-Thinking-v1.5 的新推理模型。该模型在推理任务和非推理任务中均表现出强大的性能。 数学推理: 在数学竞赛方面,Seed-Thinking-v1.5 在 AIME 2024 上取得了 86.7 分,与 o3-mini-high 的表现持平,并显著优于 o1 和 DeepSeek R1,展现出具有竞争力的实力。由于 AIME 2024 不再能提供足够的区分度,我们构建了一个更具挑战性的评估集,名为 BeyondAIME。BeyondAIME 中的所有问题均由人类专家全新策划设计,旨在最大限度地减少通过记忆或猜测解决问题的可能性。虽然 Seed-Thinking-v1.5 在 BeyondAIME 上的表现超越了 o1 和 R1,但与 o3 和 Gemini pro 2.5 相比,仍存在性能差距。这也进一步证明了这个新评估集的区分能力。 ...

April 10, 2025 · 小茄墩

字节Seed:PPO 在长思维链(Long-CoT)中崩溃的背后是什么?价值优化掌握着秘密

近端策略优化 $$ \mathcal{L}^{CLIP}(\theta)=\hat{\mathbb{E}}_t\left[\min\left(r_t(\theta)\hat{A}_t,\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right] $$$$ \hat{A}_t=\sum_{l = 0}^{T-t-1}(\gamma\lambda)^l\delta_{t + l} $$ 其中 $\gamma$ 是折扣因子,$\lambda\in[0, 1]$ 是 GAE 参数,而 $\delta_t=r_t+\gamma V(s_{t + 1})-V(s_t)$ 是时序差分 (TD) 误差。此处,$r_t$ 是时间步 $t$ 的奖励,$V(s)$ 是价值函数。由于在 RLHF 中通常将折扣因子设为 $\gamma = 1.0$,为简化表示,我们在本文后续章节中省略了 $\gamma$。 识别并解决 PPO 在长 CoT 任务中的失败模式 在本节中,我们展示 PPO 在长 CoT 任务中的一个常见失败模式,并从理论和实证角度考察其与预训练及训练中价值偏差的关系。随后,我们提出实用的解决方案来改进 PPO,使其能够避免此类失败。 PPO 在长思维链 (CoT) 任务中的失败模式 在从人类反馈中进行强化学习 (Reinforcement Learning from Human Feedback, RLHF) 的领域应用 PPO 时,有两种常见的做法如下: 采用默认的广义优势估计 (Generalized Advantage Estimation, GAE),通常设置 $\lambda = 0.95$。 使用一个训练充分的奖励模型 (reward model) 来初始化价值模型 (value model)。 第一种做法起源于传统的强化学习文献,在这些文献中,PPO 已经在 Mujoco 和 Atari 等环境中得到了广泛的测试。在这些环境中,奖励 (rewards) 会沿着轨迹 (trajectory) 累积,导致回报 (return) 具有高方差。因此,方差缩减 (variance reduction) 变得十分必要。第二种做法则自然地源于奖励模型和价值模型之间的明显相似性,因为这两种模型都被训练用于预测关于响应 (response) 的标量信息 (scalar information)。然而,我们的实验揭示,将 PPO 轻率地应用于需要长思维链 (CoT) 的任务不可避免地会导致失败,具体如图1所示。 ...

April 9, 2025 · 小茄墩

字节Seed新作:VAPO:使用基于价值的强化学习框架进行长思维链推理

摘要 我们提出VAPO(面向推理模型的基于价值的增强型近端策略优化框架),这是一个专为推理模型设计的新型框架,立足于价值导向范式。在AIME 2024数据集的基准测试中,基于Qwen 32B预训练模型构建的VAPO获得了60.4的最高分。在完全相同的实验条件下进行直接对比时,VAPO的表现超过先前报告的DeepSeek-R1-Zero-Qwen-32B和DAPO模型10分以上。 VAPO的训练过程以稳定性和效率见长。它仅需5,000步即可达到最先进的性能水平。此外,在多次独立运行测试中,未出现任何训练崩溃现象,充分证明了其可靠性。 本研究深入探讨了使用基于价值的强化学习框架进行长思维链(long-CoT)推理。我们识别出影响基于价值方法的三个关键挑战:价值模型偏差、异构序列长度以及奖励信号稀疏性。通过系统化设计,VAPO提供了一个综合解决方案,有效缓解了这些挑战,从而提升了长思维链推理任务的性能表现。 引言 在大语言模型(LLM)的强化学习(RL)训练中,像 GRPO 和 DAPO 这样的无价值方法已展现出显著的有效性。这些方法消除了学习价值模型的计算开销,而是仅根据整个轨迹的最终奖励来计算优势。然后,轨迹级别的优势被直接分配为序列中每个位置的 Token 级别优势。当训练一个可靠的价值模型特别具有挑战性时,无价值方法通过对一个组内多个轨迹的奖励进行平均,为优势计算提供了一个准确且稳定的基线。这种基于组的奖励聚合减轻了对显式价值估计的需求,而显式价值估计在复杂任务中常常存在不稳定性。因此,无价值方法在解决诸如长思维链(CoT)推理等难题方面获得了显著的关注,大量的研究工作都集中在优化其框架上。 尽管不基于价值的方法已取得了显著成功,但我们认为,如果能够克服训练价值模型中的挑战,基于价值的方法则拥有更高的性能上限。首先,价值模型通过精确追踪每个动作对后续回报的影响,能够实现更精确的信用分配,从而促进更细粒度的优化。这对于复杂的推理任务尤为关键,因为在这类任务中,单个步骤的细微错误往往会导致灾难性的失败,而对于在不基于价值的框架下进行优化的模型而言,这仍然是一个挑战。其次,相较于不基于价值的方法中利用蒙特卡洛方法得出的优势估计,价值模型能为每个 Token 提供方差更低的值估计,进而增强训练的稳定性。此外,一个训练良好的价值模型展现出内在的泛化能力,使其能够更有效地利用在线探索过程中遇到的样本。这显著提升了强化学习算法的优化上限。因此,尽管为复杂问题训练价值模型面临着艰巨挑战,但克服这些困难所能带来的潜在收益是巨大的。然而,在长思维链(Long CoT)任务中训练一个完美的价值模型存在显著的挑战。第一,鉴于轨迹漫长以及以自举方式学习价值存在不稳定性,学习一个低偏差的价值模型并非易事。第二,同时处理长响应和短响应也颇具挑战性,因为它们在优化过程中可能对偏差-方差权衡表现出截然不同的偏好。最后但同样重要的是,来自验证者的奖励信号的稀疏性,因长思维链模式而进一步加剧,这内在地要求采用更好的机制来平衡探索与利用。为应对上述挑战并充分释放基于价值的方法在推理任务中的潜力,我们提出了Value Augmented proximal Policy Optimization(VAPO),一个基于价值的强化学习训练框架。VAPO 从 VC-PPO 和 DAPO 等先前的研究工作中汲取灵感,并对其概念进行了进一步扩展。我们将我们的主要贡献总结如下: 我们引入了 VAPO,这是首个在长 COT 任务上显著优于无价值方法的基于价值的强化学习 (RL) 训练框架。VAPO 不仅表现出显著的性能优势,而且还展示了更高的训练效率,简化了学习过程,并突显了其作为该领域新基准的潜力。 我们提出了长度自适应 GAE (Length-adaptive GAE),它根据响应长度自适应地调整 GAE (Generalized Advantage Estimation) 计算中的 $\lambda$ 参数。通过这样做,它有效地满足了与长度差异极大的响应相关的独特偏差-方差权衡需求。因此,它优化了优势估计过程的准确性和稳定性,特别是在数据序列长度变化广泛的场景中。 我们系统地整合了先前工作的技术,例如来自 DAPO 的 Clip-Higher 和 Token 级损失 (Token-level Loss),来自 VC-PPO 的价值预训练 (Value-Pretraining) 和解耦 GAE (Decoupled-GAE),来自 SIL 的自模仿学习 (self-imitation learning),以及来自 GRPO 的组采样 (Group-Sampling)。此外,我们通过消融研究进一步验证了这些技术的必要性。 VAPO 是一个有效的强化学习系统,它整合了这些改进。这些改进平稳地协同作用,产生的整体效果优于各独立部分的总和。我们使用 Qwen2.5-32B 预训练模型进行实验,确保在所有实验中均未引入 SFT 数据,以保持与相关工作(DAPO 和 DeepSeek-R1-Zero-Qwen-32B)的可比性。VAPO 的性能得分相较于原始 PPO 从 5 分提升至 60 分,超越了先前最先进的(SOTA)不依赖价值函数的方法 DAPO 10 分。更重要的是,VAPO 非常稳定 —— 我们在训练期间没有观察到任何崩溃,并且多次运行的结果高度一致。 ...

April 8, 2025 · 小茄墩

Sutton: 苦涩的教训

纵观70年人工智能研究史,我们获得的最重要启示是:那些充分利用计算的通用方法,终将以显著优势成为最有效的解决方案。其根本原因在于摩尔定律,或者说更广义的"单位计算成本持续指数级下降"规律。多数人工智能研究默认可用计算资源恒定(这种情况下利用人类知识成为提升性能的主要途径),但只要将时间跨度拉长到略超典型研究周期,计算能力的数量级增长就变得不可避免。研究者为获得短期可见的改进,往往诉诸领域专业知识,但从长远来看,真正起决定性作用的唯有对计算的极致利用。这两种方法本可并行不悖,但现实往往顾此失彼——任何一方的投入都会挤占另一方的资源,研究者也会形成心理层面的路径依赖。更关键的是,依赖人类知识的方法常使系统复杂化,反而不利于通用计算方法发挥最大效能。人工智能发展史上充满了对这种苦涩教训的迟来认知,审视几个典型案例颇具启发价值。 在计算机象棋领域,1997年击败世界冠军卡斯帕罗夫的方法基于海量深度搜索技术。当时,这令大多数致力于利用人类对象棋特殊结构理解的计算机象棋研究者深感挫败。当基于专用软硬件的简单搜索方法展现出碾压性优势时,这些依赖人类知识的象棋研究者难以心服口服。他们辩称"暴力"搜索或许侥幸取胜,但绝非普适性策略,况且完全不同于人类的下棋方式。这些研究者原本期待基于人类经验的方法能获胜,最终却不得不面对现实落差。 相似的技术演进在计算机围棋领域重现,只是时间上延后了约二十年。早期研究投入大量精力试图通过人类棋理或围棋特性规避搜索,但当大规模搜索被有效运用后,这些努力不仅徒劳无功,甚至成为技术桎梏。通过自对弈学习训练价值函数的方法同样至关重要(该技术也应用于其他棋类乃至象棋领域,尽管在1997年首次击败人类冠军的程序中学习机制尚未起主要作用)。自对弈学习与广义的机器学习,如同搜索技术一样,能够充分释放海量计算的潜力。搜索与学习构成了人工智能研究中驾驭大规模计算的两大支柱。在计算机围棋领域,如同象棋领域,研究者最初执着于运用人类智慧(以减少搜索需求),直到后期转向拥抱搜索与学习才实现质的飞跃。 在语音识别领域,20世纪70年代DARPA曾主办过一场早期竞赛。参赛方案中既有大量利用人类知识的特殊方法——包括词汇知识、音素知识、人类声道结构知识等,也有基于隐马尔可夫模型(HMM)的新型统计方法,后者需要更多计算资源。最终统计方法再次战胜了基于人类知识的方法。这引发了整个自然语言处理领域长达数十年的范式转变,统计与计算逐渐成为主导力量。近年来深度学习在语音识别领域的崛起,正是这一持续趋势的最新注脚。深度学习方法对人类知识的依赖更少,通过海量训练集的学习与更强大的算力,构建出性能飞跃的语音识别系统。与棋类博弈领域相似,研究者总是试图按照自己理解的思维模式构建系统——将既有认知植入系统——但当摩尔定律带来充足算力并找到有效利用方式时,这种努力往往适得其反,造成研究者时间资源的巨大浪费。 计算机视觉领域也呈现类似规律。早期方法将视觉视为边缘检测、广义柱体识别或SIFT特征提取的过程。但如今这些方法已被全面摒弃。现代深度学习神经网络仅使用卷积概念与特定不变性原则,却实现了更优越的性能。 这个教训足够深刻——作为研究领域,我们仍未完全吸取教训,仍在重复同类错误。要认清并有效抵制这种倾向,必须理解这类错误的内在吸引力。我们必须接受这个苦涩的启示:将人类自认为的思维模式植入系统终将失败。这一教训基于四项历史观察:1)AI研究者常试图将知识植入智能体;2)短期看这确实有效并能满足研究者成就感;3)长期将导致发展停滞甚至阻碍进步;4)突破性进展最终来自通过搜索与学习实现计算规模化的对立方法。这种成功常带有苦涩意味且难以被完全接纳,因为它战胜了备受青睐的人类中心主义方法。 苦涩教训的启示之一是通用方法的强大力量——那些能随着计算规模持续扩展的方法,即使可用算力已非常庞大。目前具备无限扩展潜力的两大方法是搜索与学习。 第二点启示是心智内容的极端复杂性:我们应停止寻求描述心智内容的简单范式(如空间、物体、多智能体或对称性的简单理解)。这些都属于外部世界任意且本质复杂的组成部分,不应被硬编码到系统中,因其复杂性永无止境;我们应构建能发现并捕捉这种任意复杂性的元方法。这些方法的核心在于寻找优质近似解,但搜索过程应由方法本身而非人类完成。我们需要能像人类一样自主发现的AI智能体,而非固化既有发现的系统。植入已有发现只会阻碍对发现过程的本质理解。

March 7, 2025 · 小茄墩

Open R1 项目 第二周总结与展望

摘要 我们现在已经进入了 Open R1 项目 的第二周,该项目旨在重建 DeepSeek R1 缺失的部分——特别是训练管道和合成数据。 分享 OpenR1-Math-220k 的构建:这是我们首个用于数学推理的大规模数据集! 介绍社区在策划用于微调的小型、高质量数据集方面取得的一些令人兴奋的进展,以及关于如何在训练和推理阶段控制推理模型的思维链长度的见解。 OpenR1-Math-220k 数据集 DeepSeek R1 的主要优势之一是它能够通过知识蒸馏将高级推理能力迁移到较小的模型。 DeepSeek 团队通过生成 60 万个推理轨迹并微调一系列 Qwen 和 Llama 模型证明了这一点,表明直接从 R1 进行知识蒸馏可以在无需强化学习的情况下实现具有竞争力的推理性能。 值得注意的是,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩,超过了像 QwQ-32B-Preview 这样更大的模型。 然而,用于蒸馏的推理轨迹尚未公开,这促使社区独立地重新创建类似的数据集。到目前为止,社区已经发布了多个开放数据集,包括 OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1 和 LIMO。 🐳 隆重推出 OpenR1-Math-220k,这是一个大规模的数学推理数据集,它利用 512 个 H100 在本地生成,且每个问题都对应多个答案。为了创建 OpenR1-Math-220k,我们与 Numina 展开合作,他们开发了广受欢迎的 NuminaMath-CoT 数据集的全新版本。 与现有数据集相比,OpenR1 数据集的新特性:80 万条 R1 推理轨迹:我们使用 DeepSeek R1 为 40 万道问题生成了两个答案。经过筛选的数据集包含 22 万道问题,并带有正确的推理轨迹。 本地运行 512 个 H100: 我们没有依赖 API,而是利用 vLLM 和 SGLang 在我们的科学集群上本地运行生成,每天生成 18 万条推理过程。 基于 NuminaMath 1.5: 我们专注于数学推理过程,并为 NuminaMath 1.5 中的问题生成答案,NuminaMath 1.5 是 NuminaMath-CoT 数据集的改进版本。 自动过滤: 我们应用 Math Verify 来仅保留至少有一个正确答案的问题。我们还利用 Llama3.3-70B-Instruct 作为一个判断器,以检索更多正确的例子(例如,对于答案格式错误,无法使用基于规则的解析器验证的情况)。 我们通过在我们的数据集上微调 Qwen-7B-Math-Instruct 来匹配 DeepSeek-Distill-Qwen-7B 的性能。 通过展示可扩展的、高质量的推理数据生成,我们希望这个流程可以扩展到数学以外的领域,例如代码生成。 ...

February 11, 2025 · 小茄墩

PPO训练技巧总览

Jian Hu’s Blogpost 以下所有实例均可在Jian Hu开发的OpenRLHF 0 - 引言 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)结合近端策略优化(Proximal Policy Optimization, PPO)[1]是一种用于微调大语言模型(Large Language Models, LLMs)的强大方法。该方法使用可靠且高效的PPO算法,结合人类评估者的反馈来提高模型生成响应的质量。然而,使用PPO训练LLMs存在几个挑战。这些包括维持稳定的训练过程,以及实现比直接偏好优化(Direct Preference Optimization, DPO)[2]更好的性能。因此,我们总结了RLHF与PPO的实用训练技巧,以帮助研究人员更轻松地微调LLMs,确保训练稳定性和高性能。 1 - 使用PPO训练LLM的高级技巧 我们介绍三类PPO训练技巧:1) LLM特定技巧,2) PPO特定技巧,以及3)来自最新研究的创新策略。LLM特定和PPO特定的技巧已在各种RL框架[3, 4]中实现并证明有效。然而,最近论文中提出的创新策略在特定任务上的适用性仍有待验证。 1.1 - LLM特定技巧 Token级KL惩罚:计算强化学习(RL)模型和监督微调(SFT)模型的响应分布之间的每个token的KL散度[11]。这种散度在训练过程中作为惩罚项被纳入奖励函数。具体来说,每个token的奖励表示如下: $$ r(s_t, a_t) = \textbf{I}(s_t =[\text{EOS}])r(x,y)-\beta \text{KL}(t) $$$$ \text{KL}(t) = \log({\pi_{\theta_{\text{old}}}(a_t|s_t)^{\text{RL}}}/{\pi^{\text{SFT}}(a_t|s_t)} $$​ $$t$$ 是否为最后一个token的标识函数。 ​ 代码链接:utils.py 广义优势估计(Generalized Advantage Estimation, GAE):GAE[10]是一种TD(λ)回报估计方法,用于估计PPO中的token级奖励。在实践中,我们通常设置$λ=1$,将GAE方法转换为蒙特卡洛估计方法。 代码链接:experience_maker.py 将GAE的λ和折扣因子$γ$都设为1,这可以减少值网络引入的偏差。 代码链接:OpenRLHF/openrlhf/cli/train_ppo_ray.py 添加SFT损失:在PPO中加入额外的监督下一个token预测损失,与KL散度一起,可以保持SFT模型的预存能力。 代码链接:ppo_trainer.py 1.2 - PPO特定技巧 模型初始化:在使用PPO训练LLMs时,必须初始化两个模型:演员模型(actor model)和评论家模型(critic model)[6, 7]。具体来说,使用监督微调(SFT)模型初始化演员模型,使用奖励模型初始化评论家模型可以确保PPO训练的效率。 代码链接:examples/train_ppo.py Adam学习率:演员模型的Adam学习率大约是SFT模型使用的十分之一。例如,在OpenRLHF中,SFT模型的Adam学习率为5e-6,而演员模型为5e-7。此外,评论家模型的Adam学习率约为SFT模型的两倍,示例率为9e-6。 代码链接:train_ppo_llama.sh ...

February 9, 2025 · 小茄墩

Reward Hacking in Reinforcement Learning

摘要 当 强化学习 (RL) AI 智能体 利用 奖励函数中的缺陷或歧义来获得高奖励,而没有真正学习或完成预期的任务时,就会发生reward hacking。reward hacking的存在是因为 RL 环境通常是不完善的,并且准确地指定奖励函数从根本上具有挑战性。随着 大语言模型 推广到广泛的任务,并且 RLHF 成为对齐训练的常用方法,大语言模型的 RL 训练中的reward hacking已成为重要挑战。模型学习修改单元测试以通过编码任务,或者响应包含模仿用户偏好的偏差的实例,可能是 AI 模型在现实世界中更广泛自主应用的主要障碍之一。 过去关于这个主题的大部分工作都相当理论化,主要集中在定义或论证奖励篡改的存在。然而,针对实际缓解措施的研究,尤其是在以人类反馈强化学习(RLHF)和大语言模型(LLM)为背景的情况下,仍然非常有限。 背景 强化学习中的奖励函数 奖励函数定义了任务,奖励塑造对强化学习中的学习效率和准确性有显著影响。为强化学习任务设计奖励函数常常让人感觉像一门“黑暗艺术”。 许多因素导致了这种复杂性: 如何将一个大目标分解成小目标? 奖励是稀疏的还是密集的? 你如何衡量成功? 各种选择可能会导致良好或有问题的学习动态,包括不可学习的任务或可被篡改的奖励函数。关于如何在强化学习中进行奖励塑造的研究由来已久。 例如,在 Ng et al. 1999 年的论文 中,作者研究了如何在 马尔可夫决策过程 (MDP) 中修改奖励函数,以使最优策略保持不变。他们发现线性变换是有效的。 $$ F(s, a, s') = \gamma \Phi(s') - \Phi(s) $$ 这将保证折扣后的 $F$ 的总和,$F(s_1, a_1, s_2) + \gamma F(s_2, a_2, s_3) + \dots$,最终结果为 0。如果 $F$ 是这样一个基于势的塑造函数,那么它是确保 $M$ 和 $M’$ 共享相同最优策略的充分且必要条件。 $$ \begin{aligned} Q_{M^{\prime}}^*(s, a) & =Q_M^*(s, a)-\Phi(s) \\ V_{M^{\prime}}^*(s, a) & =V_M^*(s, a)-\Phi(s) \end{aligned} $$这种形式的奖励塑造允许我们将启发式方法融入到奖励函数中,以加速学习,而不会影响最优策略。 ...

February 6, 2025 · 小茄墩

s1: simple test-time scaling

摘要 test-time scaling 利用额外的测试时计算来提高性能。最近,OpenAI 的 o1 模型展示了这种能力,但没有公开分享其方法,这导致了许多复制尝试。 我们寻求实现测试时缩放和强大推理性能的最简单方法。首先,我们策划了一个==小型数据集 s1K==,其中包含 1000 个问题,并配有推理过程的轨迹,这些轨迹基于我们通过消融实验验证的三个标准:难度、多样性和质量。其次,我们开发了==预算强制方法来控制测试时计算,具体做法是强制终止模型的思考过程,或者在模型尝试结束时通过多次附加“等待”来延长其思考过程。这可以引导模型仔细检查其答案,通常会修正不正确的推理步骤==。在对 s1K 上的 Qwen2.5-32B-Instruct 大语言模型进行监督微调,并为其配备预算强制后,我们的模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出 27%(MATH 和 AIME24)。此外,使用预算强制缩放 s1-32B 允许在没有测试时干预的情况下将其性能外推:在 AIME24 上从 50% 提高到 57%。 引言 DeepSeek R1 成功地复制了 o1 级别的性能,也采用了通过数百万样本和多个训练阶段的强化学习。然而,尽管有大量的 o1 复制尝试,但没有一个公开复制了清晰的测试时缩放行为。 因此,我们提出问题:==实现test-time scaling和强大的推理性能的最简单方法是什么?== 我们证明,仅使用1000个样本进行下一个 Token 预测训练,并通过一种简单的测试时技术(我们称之为预算强制)来控制思考时长,可以得到一个强大的推理模型,其性能随着测试时计算量的增加而扩展。具体来说,我们构建了 s1K,它包含1000个精心策划的问题,这些问题与从 Gemini Thinking Experimental 中提取的推理轨迹和答案配对。我们对一个现成的预训练模型在我们的少量数据集上进行了监督微调(SFT),仅需在 16 个 H100 GPU 上训练 26 分钟。训练后,我们使用预算强制来控制模型在测试时花费的计算量: (I) 如果模型生成的思考 Token 超过了期望的限制,我们将通过附加一个思考结束 Token 分隔符来强制结束思考过程。以这种方式结束思考会使模型过渡到生成答案。 (II) 如果我们希望模型在问题上花费更多的测试时计算量,我们会抑制思考结束 Token 分隔符的生成,而是将“等待”附加到模型当前的推理轨迹中,以鼓励更多的探索。 有了这个简单的配方——在 1000 个样本上进行 SFT 和测试时预算强制——我们的模型 s1-32B 表现出测试时扩展。此外,s1-32B 是最节省样本的推理模型,并且优于像 OpenAI 的 o1-preview 这样的闭源模型 。我们进行了广泛的消融实验,目标是 (a) 我们选择的 1000 个 (1K) 推理样本和 (b) 我们的测试时扩展。对于 (a),我们发现将难度、多样性和质量度量共同纳入我们的选择算法非常重要。随机选择、选择具有最长推理轨迹的样本或仅选择最大多样性的样本都会导致性能显著下降(在 AIME24 上平均下降约 ->30%)。在我们包含 59K 个示例的完整数据池(s1K 的超集)上进行训练,并不能比我们的 1K 选择提供实质性的提升。这突出了仔细数据选择的重要性,并呼应了先前关于指令微调的发现。对于 (b),我们为测试时扩展方法定义了期望,以比较不同的方法。预算强制导致最佳的扩展,因为它具有完美的控制性,并且具有清晰的正斜率,从而带来强大的性能。 ...

February 3, 2025 · 小茄墩

DeepSeek-R1技术报告详解

几个要点 数据层面 a. 大规模人工标注还是太麻烦了,==探索无需人工标注的方法== -> 跳过SFT直接上RL b. a步骤基础上加上一点人工标注作为==冷启动==,会好很多 -> 小小SFT一下,还是不错 训练层面 a. RL模型:==Group Relative Policy Optimization== b. 奖励:==准确性奖励+格式化奖励==。试过当红的过程奖励和MTCS,最终都放弃 c. 振奋人心的自我进化时刻和==顿悟==时刻! c. SFT冷启动一下效果会更好。也就是==pretrain+SFT+RLHF的pipeline依旧是上限最高的== d. 对小模型来说,==从大模型蒸馏依旧是天花板最高的方案== 模型开源 a. DeepSeek-R1-Zero: DeepSeek-V3-Base作为基础模型+RL b. DeepSeek-R1: DeepSeek-V3-Base+SFT冷启动+RL c. 一堆蒸馏的小模型 方法 概述 先前的研究严重依赖大量的监督数据来提升模型性能。在本研究中,我们证明了即使不使用监督微调(SFT)作为冷启动,通过大规模强化学习(RL)也可以显著提高推理能力。此外,通过加入少量冷启动数据,性能可以得到进一步提升。在接下来的章节中,我们将介绍: (1)DeepSeek-R1-Zero,它直接将强化学习应用于基础模型,无需任何SFT数据; (2)DeepSeek-R1,它从使用数千个长链式思考(CoT)示例进行微调的检查点开始应用强化学习。 (3)将DeepSeek-R1的推理能力提炼到小型密集模型中。 DeepSeek-R1-Zero: 基于基础模型的强化学习 收集监督数据非常费劲,希望探索没有任何监督数据情况下的能力,重点关注通过纯粹的强化学习过程进行的自我进化。 强化学习算法 Group Relative Policy Optimization 为了节省强化学习的训练成本,我们采用了组相对策略优化(GRPO),它放弃了通常与策略模型大小相同的评论家模型,而是从组得分中估计基线。 $$ \begin{equation} \begin{split} \mathcal{J}_{GRPO}(\theta) &= \mathbb{E}{[q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(O|q)]} \\ & \frac{1}{G}\sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i |q)}{\pi_{\theta_{old}}(o_i |q)} A_i, \text{clip} \left( \frac{\pi_\theta(o_i |q)}{\pi_{\theta_{old}}(o_i |q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) - \beta \mathbb{D}_{KL}\left(\pi_{\theta} || \pi_{ref}\right)\right) , \end{split} \label{eq:GRPO-obj} \end{equation} $$$$ \begin{equation} \mathbb{D}_{KL}\left(\pi_{\theta} || \pi_{ref}\right) = \frac{\pi_{ref}(o_i|q)}{\pi_{\theta}(o_i|q)}- \log\frac{\pi_{ref}(o_i|q)}{\pi_{\theta}(o_i|q)} - 1, \end{equation} $$$$ \begin{equation} A_i = \frac{r_i - {\mathrm mean(\{r_1, r_2, \cdots, r_G\})}}{{\mathrm std(\{r_1, r_2, \cdots, r_G\})}}. \end{equation} $$ ...

February 2, 2025 · 小茄墩