《Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims》

近期大量宣称通过强化学习(RL)改进大语言模型(LLM)“推理能力”的论文,特别是那些声称使用随机或无外部奖励就能取得进步的论文,引发了广泛关注。然而,作者团队分析了7篇热门LLM RL论文后发现,这些研究中RL方法带来的实际改进并不明确。核心问题在于,这些论文报告的预RL模型(即原始模型)的基线性能显著低于Qwen等模型的官方发布数据或其他标准化评估(如“Sober Reasoning”论文)中的数据。在某些情况下,经过RL调优后的模型性能甚至比(正确评估的)原始基线模型还要差。这意味着这些研究所声称的通过RL“激发”出的能力,可能无需任何权重更新或微调,仅通过修正提示工程(prompting)和生成超参数(如使用正确的输出格式、更好的答案解析方法、推荐的采样温度、一致的最大输出token数、使用少样本提示改进格式遵循性)就能实现。如果RL训练主要只是教会模型更好地适应评估格式,那么它并未如期望那样带来新的推理能力。作者呼吁未来论文发布时应至少提供HuggingFace上的开源权重检查点和针对报告评估数据的样本级模型输出。文中的“MATH 500结果快照”图表和随附的表格直观地展示了多篇论文报告的RL后准确率、报告的预RL准确率与“实际”预RL准确率之间的巨大差异,例如“Spurious Rewards”论文中Qwen2.5-7B模型报告的预RL准确率为41.6%,而实际应为64.6%。

近期论文结果的仔细审视

1. Spurious Rewards: Rethinking Training Signals in RLVR

该论文声称,即使使用与正确答案关联不大甚至负相关的“虚假奖励”(spurious rewards),强化学习验证奖励(RLVR)也能激发某些模型(如Qwen2.5-Math-7B)强大的数学推理能力,例如通过随机奖励使其在MATH500上的性能提升21.4%。然而,作者指出,该论文报告的多个Qwen模型(如Qwen2.5-Math-7B在MATH500上报告基线49.4%,实际为64.3%;Qwen2.5-7B报告41.6%,实际为59.7%)的基线准确率远低于实际水平。这意味着,论文中通过各种虚假奖励(如一次性奖励、格式奖励、随机奖励、错误标签奖励)获得的性能提升,在与修正后的实际基线比较时,大部分增益都消失了,可能仅仅是弥补了其评估设置未能充分发挥预RL模型能力的缺陷。此外,论文中关于RL对Qwen有效而对Llama无效的附带声明,也可能因为对Llama测试的是指令调优模型,而对Qwen测试的是基础模型——这种模型类型的差异本身就会导致能力表现的巨大不同,因为指令调优本身已在很大程度上激发了基础模型的能力。

2. Maximizing Confidence Alone Improves Reasoning

这篇论文提出了一种完全无监督的RL方法,它不依赖外部奖励或真实答案,而是使用模型对其生成答案的分布熵(即模型置信度)作为内在奖励,声称通过强化高置信度思维链能提升模型的推理能力。作者通过对比发现,该论文报告的多个Qwen模型(如Qwen2.5-1.5B Instruct在GSM8k上报告基线9.7%,实际为73.2%;Qwen2.5-7B Instruct在GSM8k上报告基线78.0%,实际为91.6%)的pre-RL模型基线准确率被严重低估。在许多模型和数据集对上,正确评估的预RL模型性能甚至远高于RL调优后的模型。例如,Qwen2.5-1.5B Instruct在GSM8k上RL后的准确率为72.5%,但其在Qwen官方发布中的实际基线已达73.2%。这让人质疑RL是否真的提升了推理能力,或者仅仅是缓解了因评估设置问题(作者声称是模型未遵循其使用的####.输出格式,而社区更倾向于使用\\boxed{}格式,模型在此格式下表现更好)导致的预RL模型能力被低估的现象。论文中关于仅用格式奖励进行RL训练效果不如其方法的控制实验,并不能充分证明其方法优于简单地修复格式问题,因为格式奖励模型可能优化不足或导致灾难性遗忘。

3. RL with 1 Example

该论文的核心主张是,应用RLVR到基础模型(如Qwen2.5-Math-1.5B),仅通过一个精心挑选的样本进行强化学习,就能显著提升模型在多个数学推理基准上的性能,例如将Qwen2.5-Math-1.5B在MATH500上的性能从36.0%提升到73.6%。然而,作者指出,该论文中DeepSeek-R1-Distill-Qwen-1.5模型在多个基准测试(如MATH500上RL后78.0%,报告基线71.0%,实际基线84.9%)上的RL后准确率,实际上低于正确评估设置下的实际基线模型准确率。对于Qwen2.5-Math-7B模型,虽然RL后的准确率(如MATH500上79.2%)确实超过了实际的零样本基线(64.3%),但由于其报告的基线(51.0%)被严重低估,使得提升幅度看起来远大于实际情况。评估出错的可能原因包括:1. 论文使用了官方Qwen2.5-Math评估流程,而Math-verify等更新的评估方法在答案提取方面更为鲁棒,旧流程可能导致基线偏低;2. 对某些测试集重复8次测试并使用0.6的温度,而对其他测试集使用温度0,这可能不符合Sober Reasoning等推荐的较高温度评估,且温度0在长文本生成时可能导致输出退化。

4. Learning to Reason without External Rewards

这篇论文提出了一种名为INTUITOR的方法,该方法在群体相对策略优化(GRPO)中用自确定性得分替代外部奖励,实现了完全无监督学习,并声称INTUITOR能在数学基准上达到GRPO的性能,并在代码生成等域外任务上实现更好的泛化。作者对比数据后发现,该论文报告的Qwen2.5-3b模型在GSM8k上的RL后准确率为79.2%,而其报告的基线为67.3%,但官方(少样本)准确率已达到79.1%。在CruxEval上,RL后为41.6%,报告基线23.6%,而官方数据为36.5%。这意味着RL后的模型性能似乎并未超越其原始模型在官方(少样本)评估中的表现。因此,不清楚RL是否教会了模型新的推理能力,可能仅仅是修复了导致基线被低估的问题,例如由于其报告的基线评估是零样本,可能存在格式遵循问题。由于论文未完全报告评估设置(如温度、提示、格式遵循百分比),具体原因难以确定。

5. Verifree: Reinforcing General Reasoners without Verifiers

该论文提出了一种名为VeriFree的无验证器方法,它绕过答案验证,直接通过RL最大化生成参考答案的概率,并声称VeriFree在MMLU-Pro、GPQA、数学基准等评估中能匹配甚至超越基于验证器的方法。作者指出,尽管该论文的RL方法(例如Qwen3-4b在MATH500上达到74.8%)确实超过了其所用的Qwen3基础模型的官方报告数字(此处作者自行评估Qwen3-4b在MATH500的官方thinking accuracy为97.0%,但Verifree原文表格的reported thinking accuracy是84.4%,实际pre-RL Verifree用的似乎更低,为73.4%)。然而,论文中报告的Qwen3基础模型、非思考模式和思考模式的参考准确率均被低估。例如,作者自行评估Qwen3-4b在MMLU-Pro上的零样本思考模式准确率为67.5%,而论文报告的思考准确率为62.7%;在GPQA上作者评估为48.6%,论文报告为31.8%。这意味着尽管VeriFree方法本身可能具有潜力,但其图表中错误的参考准确率会误导读者对其功效的判断。评估可能出错的一个原因是论文在多数情况下报告使用温度0进行采样,而Qwen3模型页面明确指出不应这样做,因其可能导致输出退化。

6. Unreasonable Effectiveness of Entropy Minimization

这篇论文的核心主张是,熵最小化(EM)——即训练模型将其概率质量更集中于其最自信的输出上——这一简单目标,无需任何标记数据,就能显著提高LLM在数学、物理和编码任务上的性能,揭示了许多预训练LLM拥有先前未被充分认识的推理能力,这些能力仅通过熵最小化就能被有效激发。作者对比后发现,在多数数据集上(如Qwen2.5-7b在MATH500上RL后70.8%,报告基线43.8%,实际基线59.7%;在Minerva上RL后30.9%,报告基线14.7%,实际基线21.4%),该论文报告的基线模型准确率被低估,因此实际增益远低于报告值。唯一的例外是AIME24(RL后18.9%,报告基线15.6%,实际基线8.0%),但AIME24样本量小,结果可能受评估噪声影响。尽管如此,作者承认该论文的措辞比较谨慎,未声称模型学习了新的推理能力,而是侧重于“激发先前未被充分认识的推理能力”,这似乎是更准确的表述。评估可能出错的原因包括使用的温度为0.1,可能过低,以及未提供关于因格式错误或解析问题导致答案被判错误样本的详细信息。

7. Can Large Reasoning Models Self-Train?

该论文提出了一种在线自训练强化学习算法,利用模型的自洽性(self-consistency)推断正确性信号,在没有任何真实标签监督的情况下进行训练,并声称该算法能在具挑战性的数学推理任务上迅速达到与使用黄金标准答案训练的强化学习方法相媲美的性能水平。作者通过对比图11中的数据发现,该论文报告的Qwen 2.5 Math 7B模型在多个基准(如MATH500上RL后约80%,报告基线约42%,实际基线64.3%;AMC23上RL后63%,报告基线30%,实际基线56.2%)上的预RL基线准确率远低于实际水平。这再次表明评估设置存在问题,修正基线后,RL带来的增益显著减小。评估可能出错的原因是,论文中RL的rollouts和评估都使用了相同的生成参数(温度1.0, top_k和top_p为-1),而Qwen2.5模型的默认推理温度是0.7,这可能并非最优评估设置。此外,作者提醒AIME和AMC是小数据集,固有方差高,基于这些基准下结论需谨慎。