Benchmark

《Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims》近期大量宣称通过强化学习（RL）改进大语言模型（LLM）“推理能力”的论文，特别是那些声称使用随机或无外部奖励就能取得进步的论文，引发了广泛关注。然而，作者团队分析了7篇热门LLM RL论文后发现，这些研究中RL方法带来的实际改进并不明确。核心问题在于，这些论文报告的预RL模型（即原始模型）的基线性能显著低于Qwen等模型的官方发布数据或其他标准化评估（如“Sober Reasoning”论文）中的数据。在某些情况下，经过RL调优后的模型性能甚至比（正确评估的）原始基线模型还要差。这意味着这些研究所声称的通过RL“激发”出的能力，可能无需任何权重更新或微调，仅通过修正提示工程（prompting）和生成超参数（如使用正确的输出格式、更好的答案解析方法、推荐的采样温度、一致的最大输出token数、使用少样本提示改进格式遵循性）就能实现。如果RL训练主要只是教会模型更好地适应评估格式，那么它并未如期望那样带来新的推理能力。作者呼吁未来论文发布时应至少提供HuggingFace上的开源权重检查点和针对报告评估数据的样本级模型输出。文中的“MATH 500结果快照”图表和随附的表格直观地展示了多篇论文报告的RL后准确率、报告的预RL准确率与“实际”预RL准确率之间的巨大差异，例如“Spurious Rewards”论文中Qwen2.5-7B模型报告的预RL准确率为41.6%，而实际应为64.6%。近期论文结果的仔细审视 1. Spurious Rewards: Rethinking Training Signals in RLVR 该论文声称，即使使用与正确答案关联不大甚至负相关的“虚假奖励”（spurious rewards），强化学习验证奖励（RLVR）也能激发某些模型（如Qwen2.5-Math-7B）强大的数学推理能力，例如通过随机奖励使其在MATH500上的性能提升21.4%。然而，作者指出，该论文报告的多个Qwen模型（如Qwen2.5-Math-7B在MATH500上报告基线49.4%，实际为64.3%；Qwen2.5-7B报告41.6%，实际为59.7%）的基线准确率远低于实际水平。这意味着，论文中通过各种虚假奖励（如一次性奖励、格式奖励、随机奖励、错误标签奖励）获得的性能提升，在与修正后的实际基线比较时，大部分增益都消失了，可能仅仅是弥补了其评估设置未能充分发挥预RL模型能力的缺陷。此外，论文中关于RL对Qwen有效而对Llama无效的附带声明，也可能因为对Llama测试的是指令调优模型，而对Qwen测试的是基础模型——这种模型类型的差异本身就会导致能力表现的巨大不同，因为指令调优本身已在很大程度上激发了基础模型的能力。 2. Maximizing Confidence Alone Improves Reasoning 这篇论文提出了一种完全无监督的RL方法，它不依赖外部奖励或真实答案，而是使用模型对其生成答案的分布熵（即模型置信度）作为内在奖励，声称通过强化高置信度思维链能提升模型的推理能力。作者通过对比发现，该论文报告的多个Qwen模型（如Qwen2.5-1.5B Instruct在GSM8k上报告基线9.7%，实际为73.2%；Qwen2.5-7B Instruct在GSM8k上报告基线78.0%，实际为91.6%）的pre-RL模型基线准确率被严重低估。在许多模型和数据集对上，正确评估的预RL模型性能甚至远高于RL调优后的模型。例如，Qwen2.5-1.5B Instruct在GSM8k上RL后的准确率为72.5%，但其在Qwen官方发布中的实际基线已达73.2%。这让人质疑RL是否真的提升了推理能力，或者仅仅是缓解了因评估设置问题（作者声称是模型未遵循其使用的####.输出格式，而社区更倾向于使用\\boxed{}格式，模型在此格式下表现更好）导致的预RL模型能力被低估的现象。论文中关于仅用格式奖励进行RL训练效果不如其方法的控制实验，并不能充分证明其方法优于简单地修复格式问题，因为格式奖励模型可能优化不足或导致灾难性遗忘。 3. RL with 1 Example 该论文的核心主张是，应用RLVR到基础模型（如Qwen2.5-Math-1.5B），仅通过一个精心挑选的样本进行强化学习，就能显著提升模型在多个数学推理基准上的性能，例如将Qwen2.5-Math-1.5B在MATH500上的性能从36.0%提升到73.6%。然而，作者指出，该论文中DeepSeek-R1-Distill-Qwen-1.5模型在多个基准测试（如MATH500上RL后78.0%，报告基线71.0%，实际基线84.9%）上的RL后准确率，实际上低于正确评估设置下的实际基线模型准确率。对于Qwen2.5-Math-7B模型，虽然RL后的准确率（如MATH500上79.2%）确实超过了实际的零样本基线（64.3%），但由于其报告的基线（51.0%）被严重低估，使得提升幅度看起来远大于实际情况。评估出错的可能原因包括：1. 论文使用了官方Qwen2.5-Math评估流程，而Math-verify等更新的评估方法在答案提取方面更为鲁棒，旧流程可能导致基线偏低；2. 对某些测试集重复8次测试并使用0.6的温度，而对其他测试集使用温度0，这可能不符合Sober Reasoning等推荐的较高温度评估，且温度0在长文本生成时可能导致输出退化。 4. Learning to Reason without External Rewards 这篇论文提出了一种名为INTUITOR的方法，该方法在群体相对策略优化（GRPO）中用自确定性得分替代外部奖励，实现了完全无监督学习，并声称INTUITOR能在数学基准上达到GRPO的性能，并在代码生成等域外任务上实现更好的泛化。作者对比数据后发现，该论文报告的Qwen2.5-3b模型在GSM8k上的RL后准确率为79.2%，而其报告的基线为67.3%，但官方（少样本）准确率已达到79.1%。在CruxEval上，RL后为41.6%，报告基线23.6%，而官方数据为36.5%。这意味着RL后的模型性能似乎并未超越其原始模型在官方（少样本）评估中的表现。因此，不清楚RL是否教会了模型新的推理能力，可能仅仅是修复了导致基线被低估的问题，例如由于其报告的基线评估是零样本，可能存在格式遵循问题。由于论文未完全报告评估设置（如温度、提示、格式遵循百分比），具体原因难以确定。 5. Verifree: Reinforcing General Reasoners without Verifiers 该论文提出了一种名为VeriFree的无验证器方法，它绕过答案验证，直接通过RL最大化生成参考答案的概率，并声称VeriFree在MMLU-Pro、GPQA、数学基准等评估中能匹配甚至超越基于验证器的方法。作者指出，尽管该论文的RL方法（例如Qwen3-4b在MATH500上达到74.8%）确实超过了其所用的Qwen3基础模型的官方报告数字（此处作者自行评估Qwen3-4b在MATH500的官方thinking accuracy为97.0%，但Verifree原文表格的reported thinking accuracy是84.4%，实际pre-RL Verifree用的似乎更低，为73.4%）。然而，论文中报告的Qwen3基础模型、非思考模式和思考模式的参考准确率均被低估。例如，作者自行评估Qwen3-4b在MMLU-Pro上的零样本思考模式准确率为67.5%，而论文报告的思考准确率为62.7%；在GPQA上作者评估为48.6%，论文报告为31.8%。这意味着尽管VeriFree方法本身可能具有潜力，但其图表中错误的参考准确率会误导读者对其功效的判断。评估可能出错的一个原因是论文在多数情况下报告使用温度0进行采样，而Qwen3模型页面明确指出不应这样做，因其可能导致输出退化。 6. Unreasonable Effectiveness of Entropy Minimization ...

《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》这篇论文的核心启发在于，它没有停留在简单地评估大型推理模型（LRMs）在基准测试上的最终答案准确率，而是设计了一种系统性的方法来深入探究这些模型“思考”过程的内在机制和真实能力。研究发现，即使是最前沿的推理模型，在问题复杂度超过某个临界点后，其准确率会完全崩溃。一个反直觉的发现是，模型的“思考努力”（即生成的思考过程的长度）并不会随着问题变难而无限增加，反而在接近崩溃点时开始下降。通过与标准大语言模型（LLM）在同等计算资源下进行对比，研究揭示了三种性能表现区间：在低复杂度任务上，标准模型反而表现更优；在中等复杂度任务上，推理模型的“思考”显示出优势；而在高复杂度任务上，两者都会彻底失败。这套研究方法不仅揭示了模型在精确计算和逻辑一致性上的局限，也为我们理解和改进未来的推理模型指明了方向。作者观察到，当前对大型推理模型（如具备“思考”功能的模型）的评估过于依赖已有的数学或代码基准，这种方式存在数据污染的风险，并且无法深入分析模型推理过程的质量和结构。为此，他们提出的关键一步是转向使用“可控的谜题环境”。这种环境的核心优势在于，研究者可以精确地、系统性地调整问题的“组合复杂度”（例如增加汉诺塔的盘子数），同时保持问题底层的逻辑结构不变。这样做不仅能有效避免数据污染问题，更重要的是，它使得研究者能够像调试程序一样，检查模型生成的中间推理步骤（即“思考过程”)是否正确，从而能够更深入、更严谨地分析模型的“思维”模式、优势和根本性局限。模型的推理能力是通用的，还是仅仅是更高级的模式匹配？它们的性能如何随问题复杂度扩展？与投入相同计算资源的标准模型相比，它们的优势何在？通过梳理文献中提到的“过度思考”（overthinking）等现象，作者将自己的研究目标聚焦于系统性地分析模型的思考量与任务复杂度的关系。数学与谜题环境 (Math and Puzzle Environments) 通过对比实验，论证了传统数学基准的局限性，并详细阐述了其核心研究工具——四种可控谜题环境的设计理念。首先，作者通过在MATH-500和AIME等数学基准上的实验发现，推理模型和非推理模型的性能差距并不稳定，这种不一致性可能源于更复杂的推理需求，但也极有可能是因为新基准测试的数据污染较少。这种模棱两可的结果凸显了传统基准在“控制变量”上的不足。为此，作者引入了四个精心设计的谜题：汉诺塔、跳棋、过河问题和积木世界。这些谜题的关键优势在于：（1）复杂度可控：可以通过改变盘子、棋子或积木的数量来精确调整难度，其解决问题所需的最少步数甚至有明确的数学公式，例如汉诺塔的步数是$2^{n}-1$；（2）逻辑明确：解决这些谜题仅需遵循明确给出的规则，考验的是模型的算法推理能力而非背景知识；（3）无数据污染：这些谜题的变体在网络上较少，可以避免模型通过记忆来“作弊”；（4）可验证性：可以利用模拟器对模型生成的每一步进行精确验证，从而进行细致的失败分析。这种从模糊到精确的研究工具转换为后续的深入分析奠定了基础。实验与结果通过一系列精心设计的实验，系统性地揭示了推理模型的行为模式和内在局限。首先，通过在谜题环境中对比“思考”与“不思考”的模型，作者发现了三个清晰的复杂度区间：在低复杂度下，“不思考”的标准模型更高效准确；在中等复杂度下，“思考”模型开始展现优势；而在高复杂度下，两者性能双双崩溃。这揭示了“思考”并非万能，其有效性与任务复杂度密切相关。其次，研究深入分析了推理模型的“崩溃”现象。一个惊人的发现是，随着问题变得越来越难，模型的“思考投入”（以生成的token数量衡量）在达到一个峰值后便开始反常地减少，即使计算预算（token上限）远未用尽。这表明模型似乎存在一种内在的扩展限制，当它“感觉”问题过于困难时，会倾向于“放弃思考”，而不是投入更多努力。再者，作者通过分析模型“思考过程”的中间步骤，获得了更深层的洞见。他们发现，在解决简单问题时，模型会“过度思考”，即很早就找到了正确答案，但仍继续探索错误的路径，浪费计算资源。而在中等难度问题中，模型则表现出一定的“自我修正”能力，通常在探索了多个错误方案后才能找到正确答案。这一发现量化了模型的思考效率和修正能力随复杂度的动态变化。最后，作者提出了一些悬而未决的“谜题行为”。最引人深思的是，即使在提示中明确给出了解决汉诺塔问题的完整算法，模型的表现也几乎没有提升，仍然在相似的复杂度下崩溃。这强烈地暗示了当前模型在严格执行和验证逻辑步骤方面存在根本性缺陷。同时，模型在不同谜题上的表现差异巨大（例如，能解决需要上百步的汉诺塔，却在十几步的过河问题上失败)，这表明其能力可能严重依赖于训练数据中的模式记忆，而非通用的、可泛化的问题解决能力。

Benchmark

对近期LLM-RL研究主张的质疑

思考的幻觉？推理模型在高复杂度任务上全部崩溃