Qwen | 一只小茄墩

Qwen团队：GSPO算法

《Group Sequence Policy Optimization》稳定、高效地训练大语言模型。与以往算法在单个token层面计算重要性比例不同，GSPO 在整个序列的似然度（sequence likelihood）基础上定义重要性比例，并在序列级别上进行裁剪、奖励分配和优化。研究表明，GSPO相比于GRPO算法，在训练效率和模型性能上都表现更优，并且显著稳定了混合专家（MoE）模型的强化学习训练过程，还有简化强化学习基础设施的潜力。这些优点最终促成了最新的Qwen3模型的显著性能提升。预备知识理解GSPO所需要的基础知识。用 $\pi_{\theta}$ 表示自回归语言模型策略，x代表问题（query），y代表回答（response）。然后回顾了两种关键的现有算法。一是“近端策略优化”（Proximal Policy Optimization, PPO），它通过裁剪机制将策略更新限制在旧策略附近，其目标函数为 PPO的主要挑战是严重依赖一个与策略模型大小相当的价值模型（value model），这带来了巨大的计算和内存开销，而且价值模型的可靠性难以保证。二是“群体相对策略优化”（Group Relative Policy Optimization, GRPO），它通过计算同一问题下多个回答之间的相对优势，从而绕开了对价值模型的需求。GRPO的目标函数为其中优势函数 $\hat{A}_{i,t}$ 是通过将单个回答的奖励与一组回答的平均奖励进行比较得出的。动机在进行大规模RL训练时，为了充分利用硬件，通常需要很大的批次大小（batch size），并通过多轮小批次（mini-batch）更新来提高样本效率，这就引入了off-policy学习的场景，即用于优化的数据来自于旧策略 $\pi_{\theta_{old}}$ 而非当前策略 $\pi_{\theta}$ 。尽管PPO和GRPO中的裁剪机制是为了应对这种偏离，但作者指出GRPO的目标函数存在一个更根本的设计缺陷。这个缺陷源于对重要性采样权重的不当使用。重要性采样的原理 $E_{z\sim\pi_{tar}}[f(z)]=E_{z\sim\pi_{beh}}[\frac{\pi_{tar}(z)}{\pi_{beh}(z)}f(z)]$ 要求通过对多个样本的加权平均来修正分布差异。然而，GRPO在每个token（token）级别上应用权重$\frac{\pi_\theta\left(y_{i, t} \mid x, y_{i,

当今旗舰开源大语言模型架构大比拼

大语言模型架构大比拼图 1：本文所涵盖的部分架构。自最初的 GPT 架构开发以来，已经过去了七年。乍一看，回顾 GPT-2（2019 年）并展望 DeepSeek-V3 和 Llama 4（2024-2025 年），人们可能会惊讶于这些模型在结构上仍然如此相似。当然，位置嵌入已从绝对位置嵌入演变为旋转位置嵌入（RoPE），多头注意力（Multi-Head Attention）已在很大程度上让位于分组查询注意力（Grouped-Query Attention），而更高效的 SwiGLU 也取代了像 GELU 这样的激活函数。但在这些微小的改进之下，我们是否真正看到了突破性的变化，还是我们仅仅在打磨相同的架构基础？比较大语言模型以确定促成其良好（或不那么好）性能的关键因素是出了名的困难：数据集、训练技术和超参数差异巨大，且通常没有详细记录。然而，我认为，审视架构本身的结构性变化，看看大语言模型开发者在 2025 年都在做些什么，仍然具有很大的价值。（图 1 中展示了其中的一部分。）所以，在本文中，我不会着重介绍基准性能或训练算法，而是将焦点放在定义当今旗舰开源模型的架构发展上。 1. DeepSeek V3/R1 1.1 Multi-Head Latent Attention (MLA) 所以，GQA 的核心思想是通过在多个查询头之间共享键头和值头，从而减少其数量。这样做有两点好处：(1) 降低了模型的参数量；(2) 减少了推理过程中键张量和值张量的内存带宽占用，因为需要从 KV 缓存中存储和检索的键和值变少了。虽然 GQA 主要是一种旨在提升 MHA 计算效率的变通方案，但消融研究（例如原始 GQA 论文和 Llama 2 论文中的研究）表明，在大语言模型建模性能方面，其表现与标准 MHA 不相上下。现在，多头潜在注意力 (Multi-Head Latent Attention, MLA) 提供了另一种不同的内存节省策略，该策略与 KV 缓存的结合效果也特别好。与 GQA 共享键头和值头的方式不同，MLA 在将键张量和值张量存入 KV 缓存之前，会先将它们压缩到一个更低维度的空间。在推理期间，这些被压缩的张量在使用前会被投影回原始尺寸，如下图 3 所示。这个过程增加了一次额外的矩阵乘法，但减少了内存占用。 ...

Qwen存在严重数据污染，基于Qwen的RL论文可靠性存疑

《Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination》本文对为什么像Qwen这样的大语言模型在使用随机甚至错误的奖励信号进行强化学习后，在数学推理任务上表现反而更好——提出了一个基于“数据污染”的合理解释。研究者没有轻易接受“模型能力强”或“强化学习有奇效”的表面结论，而是设计了一系列实验来验证他们的怀疑。关键做法是，他们发现Qwen模型家族在MATH-500等著名数学基准测试上表现出的惊人性能，很可能是因为它在预训练时接触过这些基准测试的题目和答案。为了证明这一点，他们创建了一个全新的、完全合成的、保证无泄漏的数学计算数据集RandomCalculation。在这个干净的数据集上，先前观察到的“奇迹”消失了：只有准确的奖励信号才能稳定提升模型的推理能力，而错误或随机的奖励则毫无助益。这一过程为我们揭示了在评估大模型能力时，必须警惕和排除数据污染问题，否则可能会得出不可靠甚至错误的结论。研究者观察到，强化学习（RL）技术能显著提升大语言模型（LLMs）的推理能力，特别是Qwen系列模型在数学基准测试上取得了SOTA（顶尖水平）的结果。但奇怪的是，一些研究声称，即使给予Qwen模型随机或错误的奖励信号，其性能也能提升，而这种现象在Llama等其他模型上却不成立。为了解释这个现象，论文提出了两个对立的假设：（1）数据污染：Qwen在海量网络数据预训练时，可能无意中“背诵”了评测基准（如MATH-500）的题目和答案。因此，看似随机的奖励实际上是触发了模型去回忆这些背过的答案。（2）基线数学能力强：Qwen本身数学基础就好，所以即使是噪声奖励也能帮助它。为了验证哪个假设是正确的，作者设计了明确的步骤：首先，通过“部分提示词补全”实验来检测模型是否对基准数据存在记忆；其次，构建一个全新的、无污染的合成数据集RandomCalculation 。最后，在这个干净的数据集上重新进行强化学习实验，观察不同奖励信号的真实效果。相关工作第一条线是关于在Qwen2.5上应用强化学习提升数学推理能力的研究。作者们列举了多种新兴的RL方法，如RLVR（基于可验证奖励的强化学习）、TTRL（测试时强化学习）以及各种利用熵或自洽性作为内在奖励信号的技术，并承认它们在Qwen上取得了显著成功。但同时，他们也引用了质疑这些成果普适性的研究，特别是那些指出随机奖励仅对Qwen有效而对Llama等模型无效的论文，从而引出“模型特定性”的问题。第二条线是预训练语料对推理能力的影响。作者指出，模型的数学能力很大程度上由其预训练数据决定，不同模型（如Qwen和Llama）对强化学习的反应不同，根源可能就在于其接触的训练数据存在差异。通过梳理这两方面工作，作者巧妙地将“RL在Qwen上的奇特效果”与“预训练数据的重要性”联系起来，为后续的数据污染调查铺平了道路。实验设置首先，在模型选择上，他们选取了参数量相当的Qwen2.5和Llama3.1系列模型进行对比，这遵循了控制变量的原则，旨在分离出模型本身的特性而非规模带来的差异。其次，核心的创新在于记忆能力评估的设计。他们没有采用常规的完整问题测试，而是提出了两个巧妙的指标：（1）部分提示词补全率：只给模型问题的前40%或60% ，看它能否准确生成剩余的部分。这通过ROUGE-L（衡量最长公共子序列）和EM（完全匹配）来量化，如果模型能高概率补全，则说明它很可能“见过”原题。（2）部分提示词答案准确率：在只给出部分提示的情况下，看模型能否直接给出正确答案。如果模型在问题不完整时仍能答对，这是数据污染的强烈信号。最后，在强化学习评估中，他们为自己创建的RandomCalculation数据集设计了一个连续奖励函数：$r = 1 - 0.5 \cdot min(|a-b|, 1) - 0.5 \cdot min(\frac{|a-b|}{|b|+\epsilon}, 1)$ 。这个函数同时考虑了预测值与真实值的绝对和相对误差，解决了新数据集中答案是高精度小数、传统0/1奖励过于稀疏难以训练的问题，确保了RL训练的稳定性和有效性。结果与分析复现问题：研究者首先在MATH-500数据集上成功复现了反常现象——随机和错误奖励确实提升了Qwen-Math-7B的性能，但对Llama却有负面影响。他们还敏锐地发现，Qwen基础模型的部分性能提升，仅仅是因为学习适应了评测时使用的对话模板，这揭示了评估中需要注意的陷阱。定位原因：通过前述的“部分提示词”测试，他们拿出了数据污染的“铁证”。结果显示，在MATH-500这类旧基准上，当只给出60%的问题时，Qwen2.5-Math-7B能以高达54.6%的概率精确补完剩余问题，并且依然能正确解答；而Llama的对应得分几乎为零。更具说服力的是，在一个模型发布后才创建的新基准LiveMathBench上，Qwen的补全率骤降至0%，与Llama表现一致。这强有力地证明了Qwen对旧基准存在记忆，所谓的“随机奖励提升性能”实际上是触发了模型的记忆提取机制。第三步，验证结论：为了彻底排除干扰，他们在自创的、无污染的RandomCalculation数据集上进行了最终实验。结果非常清晰：在这个干净的环境里，“魔法”消失了。无论是Qwen还是Llama，都只有在获得正确奖励信号时，性能才会稳定提升，而随机或错误奖励则完全无效。这直接证实了数据污染才是根本原因，而非模型本身有什么特异功能。