对近期LLM-RL研究主张的质疑
《Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims》 近期大量宣称通过强化学习(RL)改进大语言模型(LLM)“推理能力”的论文,特别是那些声称使用随机或无外部奖励就能取得进步的论文,引发了广泛关注。然而,作者团队分析了7篇热门LLM RL论文后发现,这些研究中RL方法带来的实际改进并不明确。核心问题在于,这些论文报告的预RL模型(即原始模型)的基线性能显著低于Qwen等模型的官方发布数据或其他标准化评估(如“Sober Reasoning”论文)中的数据。在某些情况下,经过RL调优后的模型性能甚至比(正确评估的)原始基线模型还要差。这意味着这些研究所声称的通过RL“激发”出的能力,可能无需任何权重更新或微调,仅通过修正提示工程(prompting)和生成超参数(如使用正确的输出格式、更好的答案解析方法、推荐的采样温度、一致的最大输出token数、使用少样本提示改进格式遵循性)就能实现。如果RL训练主要只是教会模型更好地适应评估格式,那么它并未如期望那样带来新的推理能力。作者呼吁未来论文发布时应至少提供HuggingFace上的开源权重检查点和针对报告评估数据的样本级模型输出。文中的“MATH 500结果快照”图表和随附的表格直观地展示了多篇论文报告的RL后准确率、报告的预RL准确率与“实际”预RL准确率之间的巨大差异,例如“Spurious Rewards”论文中Qwen2.5-7B模型报告的预RL准确率为41.6%,而实际应为64.6%。 近期论文结果的仔细审视 1. Spurious Rewards: Rethinking Training Signals in RLVR 该论文声称,即使使用与正确答案关联不大甚至负相关的“虚假奖励”(spurious rewards),强化学习验证奖励(RLVR)也能激发某些模型(如Qwen2.5-Math-7B)强大的数学推理能力,例如通过随机奖励使其在MATH500上的性能提升21.4%。然而,作者指出,该论文报告的多个Qwen模型(如Qwen2.5-Math-7B在MATH500上报告基线49.4%,实际为64.3%;Qwen2.5-7B报告41.6%,实际为59.7%)的基线准确率远低于实际水平。这意味着,论文中通过各种虚假奖励(如一次性奖励、格式奖励、随机奖励、错误标签奖励)获得的性能提升,在与修正后的实际基线比较时,大部分增益都消失了,可能仅仅是弥补了其评估设置未能充分发挥预RL模型能力的缺陷。此外,论文中关于RL对Qwen有效而对Llama无效的附带声明,也可能因为对Llama测试的是指令调优模型,而对Qwen测试的是基础模型——这种模型类型的差异本身就会导致能力表现的巨大不同,因为指令调优本身已在很大程度上激发了基础模型的能力。 2. Maximizing Confidence Alone Improves Reasoning 这篇论文提出了一种完全无监督的RL方法,它不依赖外部奖励或真实答案,而是使用模型对其生成答案的分布熵(即模型置信度)作为内在奖励,声称通过强化高置信度思维链能提升模型的推理能力。作者通过对比发现,该论文报告的多个Qwen模型(如Qwen2.5-1.5B Instruct在GSM8k上报告基线9.7%,实际为73.2%;Qwen2.5-7B Instruct在GSM8k上报告基线78.0%,实际为91.6%)的pre-RL模型基线准确率被严重低估。在许多模型和数据集对上,正确评估的预RL模型性能甚至远高于RL调优后的模型。例如,Qwen2.5-1.5B Instruct在GSM8k上RL后的准确率为72.5%,但其在Qwen官方发布中的实际基线已达73.2%。这让人质疑RL是否真的提升了推理能力,或者仅仅是缓解了因评估设置问题(作者声称是模型未遵循其使用的####.输出格式,而社区更倾向于使用\\boxed{}格式,模型在此格式下表现更好)导致的预RL模型能力被低估的现象。论文中关于仅用格式奖励进行RL训练效果不如其方法的控制实验,并不能充分证明其方法优于简单地修复格式问题,因为格式奖励模型可能优化不足或导致灾难性遗忘。 3. RL with 1 Example 该论文的核心主张是,应用RLVR到基础模型(如Qwen2.5-Math-1.5B),仅通过一个精心挑选的样本进行强化学习,就能显著提升模型在多个数学推理基准上的性能,例如将Qwen2.5-Math-1.5B在MATH500上的性能从36.0%提升到73.6%。然而,作者指出,该论文中DeepSeek-R1-Distill-Qwen-1.5模型在多个基准测试(如MATH500上RL后78.0%,报告基线71.0%,实际基线84.9%)上的RL后准确率,实际上低于正确评估设置下的实际基线模型准确率。对于Qwen2.5-Math-7B模型,虽然RL后的准确率(如MATH500上79.2%)确实超过了实际的零样本基线(64.3%),但由于其报告的基线(51.0%)被严重低估,使得提升幅度看起来远大于实际情况。评估出错的可能原因包括:1. 论文使用了官方Qwen2.5-Math评估流程,而Math-verify等更新的评估方法在答案提取方面更为鲁棒,旧流程可能导致基线偏低;2. 对某些测试集重复8次测试并使用0.6的温度,而对其他测试集使用温度0,这可能不符合Sober Reasoning等推荐的较高温度评估,且温度0在长文本生成时可能导致输出退化。 4. Learning to Reason without External Rewards 这篇论文提出了一种名为INTUITOR的方法,该方法在群体相对策略优化(GRPO)中用自确定性得分替代外部奖励,实现了完全无监督学习,并声称INTUITOR能在数学基准上达到GRPO的性能,并在代码生成等域外任务上实现更好的泛化。作者对比数据后发现,该论文报告的Qwen2.5-3b模型在GSM8k上的RL后准确率为79.2%,而其报告的基线为67.3%,但官方(少样本)准确率已达到79.1%。在CruxEval上,RL后为41.6%,报告基线23.6%,而官方数据为36.5%。这意味着RL后的模型性能似乎并未超越其原始模型在官方(少样本)评估中的表现。因此,不清楚RL是否教会了模型新的推理能力,可能仅仅是修复了导致基线被低估的问题,例如由于其报告的基线评估是零样本,可能存在格式遵循问题。由于论文未完全报告评估设置(如温度、提示、格式遵循百分比),具体原因难以确定。 5. Verifree: Reinforcing General Reasoners without Verifiers 该论文提出了一种名为VeriFree的无验证器方法,它绕过答案验证,直接通过RL最大化生成参考答案的概率,并声称VeriFree在MMLU-Pro、GPQA、数学基准等评估中能匹配甚至超越基于验证器的方法。作者指出,尽管该论文的RL方法(例如Qwen3-4b在MATH500上达到74.8%)确实超过了其所用的Qwen3基础模型的官方报告数字(此处作者自行评估Qwen3-4b在MATH500的官方thinking accuracy为97.0%,但Verifree原文表格的reported thinking accuracy是84.4%,实际pre-RL Verifree用的似乎更低,为73.4%)。然而,论文中报告的Qwen3基础模型、非思考模式和思考模式的参考准确率均被低估。例如,作者自行评估Qwen3-4b在MMLU-Pro上的零样本思考模式准确率为67.5%,而论文报告的思考准确率为62.7%;在GPQA上作者评估为48.6%,论文报告为31.8%。这意味着尽管VeriFree方法本身可能具有潜力,但其图表中错误的参考准确率会误导读者对其功效的判断。评估可能出错的一个原因是论文在多数情况下报告使用温度0进行采样,而Qwen3模型页面明确指出不应这样做,因其可能导致输出退化。 6. Unreasonable Effectiveness of Entropy Minimization ...