Zero RL Training 成功的几个因素分析
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild 摘要 DeepSeek-R1 已经表明,通过一个简单的强化学习(RL)框架,结合基于规则的奖励,长链式思考(CoT)推理可以自然地涌现。在这种框架下,训练可以直接从基础模型开始——这种范式被称 zero RL training。 近期,许多尝试复现零 RL 训练的工作主要集中在 Qwen2.5 模型系列上,但这可能不具有代表性,因为我们发现这些基础模型已经展现出强大的指令遵循和自我反思能力。 在这项工作中,我们研究了 10 个不同的基础模型上的零 RL 训练,这些模型涵盖了不同的系列和规模,包括 LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B 以及所有 Qwen2.5 模型(从 0.5B 到 32B)。 通过利用几个关键的设计策略——例如调整格式奖励和控制查询难度——我们在大多数设置中都实现了推理准确性和响应长度的显著提高。 然而,通过仔细监控训练动态,我们观察到不同的基础模型在训练过程中表现出不同的模式。 例如,响应长度的增加并不总是与某些认知行为的出现相关,例如验证(即“顿悟时刻”)。 值得注意的是,我们首次在非 Qwen 系列的小模型中观察到“顿悟时刻”。 我们分享了实现成功零 RL 训练的关键设计,以及我们的发现和实践。 为了促进进一步的研究,我们开源了代码、模型和分析工具。 介绍 回应长度的增加并不总是意味着“顿悟时刻”——有趣的是,对于构成当前大多数开源项目基础的 Qwen2.5 模型,尽管回应长度有所增加,我们并未观察到诸如自我反思等认知行为的频率有所上升。 我们首次观察到,在 Qwen 系列之外的小型模型中,尤其是在 Llama3-8B 和 DeepSeek-Math-7B 模型中,特定认知推理行为(例如验证)的频率显著增加。 强制执行严格的格式奖励(例如,将答案置于特定格式的框内)会显著抑制模型的探索能力,特别是对于那些最初难以遵循指令的基础模型。这种限制会降低它们的性能上限,并常常导致过度思考的行为。 训练数据的难度级别必须与基础模型的内在探索能力紧密对齐,否则零样本强化学习 (zero RL) 将会失败。 与 @shao2024deepseekmath 中的观察结果相反,零样本强化学习 (zero RL) 训练将 pass@k 准确率提高了 10-30 个绝对百分点,这是一个强有力的证据,证实零样本强化学习 (zero RL) 训练不仅仅是重新排序响应。 ...