Qwen团队:GSPO算法

《Group Sequence Policy Optimization》 稳定、高效地训练大语言模型。与以往算法在单个token层面计算重要性比例不同,GSPO 在整个序列的似然度(sequence likelihood)基础上定义重要性比例,并在序列级别上进行裁剪、奖励分配和优化。研究表明,GSPO相比于GRPO算法,在训练效率和模型性能上都表现更优,并且显著稳定了混合专家(MoE)模型的强化学习训练过程,还有简化强化学习基础设施的潜力。这些优点最终促成了最新的Qwen3模型的显著性能提升。 预备知识 理解GSPO所需要的基础知识。用 $\pi_{\theta}$ 表示自回归语言模型策略,x代表问题(query),y代表回答(response)。然后回顾了两种关键的现有算法。一是“近端策略优化”(Proximal Policy Optimization, PPO),它通过裁剪机制将策略更新限制在旧策略附近,其目标函数为 PPO的主要挑战是严重依赖一个与策略模型大小相当的价值模型(value model),这带来了巨大的计算和内存开销,而且价值模型的可靠性难以保证 。二是“群体相对策略优化”(Group Relative Policy Optimization, GRPO),它通过计算同一问题下多个回答之间的相对优势,从而绕开了对价值模型的需求。GRPO的目标函数为 其中优势函数 $\hat{A}_{i,t}$ 是通过将单个回答的奖励与一组回答的平均奖励进行比较得出的。 动机 在进行大规模RL训练时,为了充分利用硬件,通常需要很大的批次大小(batch size),并通过多轮小批次(mini-batch)更新来提高样本效率,这就引入了off-policy学习的场景,即用于优化的数据来自于旧策略 $\pi_{\theta_{old}}$ 而非当前策略 $\pi_{\theta}$ 。尽管PPO和GRPO中的裁剪机制是为了应对这种偏离,但作者指出GRPO的目标函数存在一个更根本的设计缺陷。这个缺陷源于对重要性采样权重的不当使用 。重要性采样的原理 $E_{z\sim\pi_{tar}}[f(z)]=E_{z\sim\pi_{beh}}[\frac{\pi_{tar}(z)}{\pi_{beh}(z)}f(z)]$ 要求通过对多个样本的加权平均来修正分布差异。然而,GRPO在每个token(token)级别上应用权重$\frac{\pi_\theta\left(y_{i, t} \mid x, y_{i,

July 25, 2025 · 小茄墩

Gemini 2.5 Pro 制胜 IMO 的提示词全解析

《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025》 整个流程被分解为以下6步: 步骤 1:生成初始解决方案; 步骤 2:自我改进; 步骤 3:验证解决方案并生成错误报告; 步骤 4:审查错误报告; 步骤 5:根据错误报告修正或改进解决方案; 步骤 6:接受或拒绝。 作者发现模型存在“思考预算”(即token限制),一次性生成完整复杂的证明非常困难。因此,他们让模型先生成初步解答,再让它自己“审阅和改进”,这相当于给了模型第二次机会和额外的思考预算来深化推理,这是一个非常实用的技巧。 其次,验证者的设计至关重要。它被指令扮演一个极其严格的IMO阅卷人,其任务不是修正错误,而是找出所有问题。最巧妙的做法是将问题分为两类:“关键错误”(Critical Error)和“论证缺陷”(Justification Gap)。如果发现关键错误,该证明路径就被中止;如果只是论证不够严谨,验证者会**“假设此步骤结论为真”**,然后继续检查后续逻辑。这种做法能够最大化地利用部分正确的证明,避免因小瑕疵而全盘放弃。同时,流程中还包括了审查(步骤4),以纠正验证者自身可能犯的错误,最终一个解法需要连续通过5次验证才被接受,确保了结果的高度可靠性。 实验设置 在参数上,他们选择低“温度” (temperature=0.1),以减少模型输出的随机性,确保逻辑的稳定性;同时用满了模型的“思考预算” (32768 tokens),给予模型最充分的思考空间。 初始解题提示词(Step 1 Prompt):核心指令是**“严谨性至上”(Rigor is Paramount)**,明确告诉模型“逻辑错误的正确答案等于失败”。它还引导模型,如果无法得出完整解,就必须诚实地只提交自己能严格证明的“部分成果”,并给出了“部分成果”的定义(如证明一个关键引理)。这种设计极大地抑制了模型的幻觉和猜测行为。 Step 1 Prompt 核心指令 严谨至上:您的首要目标是产出完整且经过严谨论证的解法。解法中的每一步都必须逻辑严密、解释清晰。任何基于有缺陷或不完整推理得出的正确最终答案,均视为失败。 对完整性保持诚实:如果您无法找到完整的解法,绝不能猜测或编造看似正确但包含隐藏缺陷或论证空白的解法。您只应呈现能严格证明的重要部分结果。若一个部分结果代表了向完整解法迈出的实质性进展,则该结果被认为是重要的。例如: 证明一个关键引理。 在一个逻辑严密的分类讨论证明中,完全解决一个或多个案例。 确立问题中数学对象的某一关键属性。 对于优化问题,证明一个上界或下界,而无需证明该界限是可达的。 为所有数学内容使用 TeX: 所有数学变量、表达式和关系式都必须用 TeX 分隔符包围(例如:‘ Let $n$ be an integer .)。 输出格式 您的回复必须严格按照以下确切顺序,结构化为下列部分。 摘要 提供您研究结果的简明概述。此部分必须包含两个部分: a. 定论:清楚说明您是找到了完整的解法,还是部分解法。 对于完整的解法:陈述最终答案,例如:“我已成功解决该问题。最终答案是……” 对于部分解法:陈述您能够严格证明的主要结论,例如:“我未能找到完整的解法,但我已严格证明……” b. 方法简述: 呈现您解法的高层次概念性大纲。该简述应能让专家在不阅读完整细节的情况下理解您论证的逻辑流程。它应包括: ...

July 23, 2025 · 小茄墩