Qwen存在严重数据污染,基于Qwen的RL论文可靠性存疑
《Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination》 本文对为什么像Qwen这样的大语言模型在使用随机甚至错误的奖励信号进行强化学习后,在数学推理任务上表现反而更好——提出了一个基于“数据污染”的合理解释。研究者没有轻易接受“模型能力强”或“强化学习有奇效”的表面结论,而是设计了一系列实验来验证他们的怀疑。关键做法是,他们发现Qwen模型家族在MATH-500等著名数学基准测试上表现出的惊人性能,很可能是因为它在预训练时接触过这些基准测试的题目和答案。为了证明这一点,他们创建了一个全新的、完全合成的、保证无泄漏的数学计算数据集RandomCalculation。在这个干净的数据集上,先前观察到的“奇迹”消失了:只有准确的奖励信号才能稳定提升模型的推理能力,而错误或随机的奖励则毫无助益。这一过程为我们揭示了在评估大模型能力时,必须警惕和排除数据污染问题,否则可能会得出不可靠甚至错误的结论。 研究者观察到,强化学习(RL)技术能显著提升大语言模型(LLMs)的推理能力,特别是Qwen系列模型在数学基准测试上取得了SOTA(顶尖水平)的结果。但奇怪的是,一些研究声称,即使给予Qwen模型随机或错误的奖励信号,其性能也能提升,而这种现象在Llama等其他模型上却不成立 。为了解释这个现象,论文提出了两个对立的假设: (1)数据污染:Qwen在海量网络数据预训练时,可能无意中“背诵”了评测基准(如MATH-500)的题目和答案。因此,看似随机的奖励实际上是触发了模型去回忆这些背过的答案。 (2)基线数学能力强:Qwen本身数学基础就好,所以即使是噪声奖励也能帮助它。为了验证哪个假设是正确的,作者设计了明确的步骤:首先,通过“部分提示词补全”实验来检测模型是否对基准数据存在记忆;其次,构建一个全新的、无污染的合成数据集RandomCalculation 。 最后,在这个干净的数据集上重新进行强化学习实验,观察不同奖励信号的真实效果 。 相关工作 第一条线是关于在Qwen2.5上应用强化学习提升数学推理能力的研究。作者们列举了多种新兴的RL方法,如RLVR(基于可验证奖励的强化学习)、TTRL(测试时强化学习)以及各种利用熵或自洽性作为内在奖励信号的技术,并承认它们在Qwen上取得了显著成功。但同时,他们也引用了质疑这些成果普适性的研究,特别是那些指出随机奖励仅对Qwen有效而对Llama等模型无效的论文,从而引出“模型特定性”的问题。 第二条线是预训练语料对推理能力的影响 。作者指出,模型的数学能力很大程度上由其预训练数据决定,不同模型(如Qwen和Llama)对强化学习的反应不同,根源可能就在于其接触的训练数据存在差异。通过梳理这两方面工作,作者巧妙地将“RL在Qwen上的奇特效果”与“预训练数据的重要性”联系起来,为后续的数据污染调查铺平了道路。 实验设置 首先,在模型选择上,他们选取了参数量相当的Qwen2.5和Llama3.1系列模型进行对比,这遵循了控制变量的原则,旨在分离出模型本身的特性而非规模带来的差异。其次,核心的创新在于记忆能力评估的设计。他们没有采用常规的完整问题测试,而是提出了两个巧妙的指标: (1)部分提示词补全率:只给模型问题的前40%或60% ,看它能否准确生成剩余的部分。这通过ROUGE-L(衡量最长公共子序列)和EM(完全匹配)来量化,如果模型能高概率补全,则说明它很可能“见过”原题。 (2)部分提示词答案准确率:在只给出部分提示的情况下,看模型能否直接给出正确答案。如果模型在问题不完整时仍能答对,这是数据污染的强烈信号。最后,在强化学习评估中,他们为自己创建的RandomCalculation数据集设计了一个连续奖励函数:$r = 1 - 0.5 \cdot min(|a-b|, 1) - 0.5 \cdot min(\frac{|a-b|}{|b|+\epsilon}, 1)$ 。这个函数同时考虑了预测值与真实值的绝对和相对误差,解决了新数据集中答案是高精度小数、传统0/1奖励过于稀疏难以训练的问题,确保了RL训练的稳定性和有效性。 结果与分析 复现问题:研究者首先在MATH-500数据集上成功复现了反常现象——随机和错误奖励确实提升了Qwen-Math-7B的性能,但对Llama却有负面影响。他们还敏锐地发现,Qwen基础模型的部分性能提升,仅仅是因为学习适应了评测时使用的对话模板,这揭示了评估中需要注意的陷阱。 定位原因:通过前述的“部分提示词”测试,他们拿出了数据污染的“铁证”。结果显示,在MATH-500这类旧基准上,当只给出60%的问题时,Qwen2.5-Math-7B能以高达54.6%的概率精确补完剩余问题,并且依然能正确解答;而Llama的对应得分几乎为零。更具说服力的是,在一个模型发布后才创建的新基准LiveMathBench上,Qwen的补全率骤降至0%,与Llama表现一致。这强有力地证明了Qwen对旧基准存在记忆,所谓的“随机奖励提升性能”实际上是触发了模型的记忆提取机制。 第三步,验证结论:为了彻底排除干扰,他们在自创的、无污染的RandomCalculation数据集上进行了最终实验。结果非常清晰:在这个干净的环境里,“魔法”消失了。无论是Qwen还是Llama,都只有在获得正确奖励信号时,性能才会稳定提升,而随机或错误奖励则完全无效。这直接证实了数据污染才是根本原因,而非模型本身有什么特异功能。