强化学习的各种方法还可比吗?

《Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning》 它揭示了当前“用强化学习提升大模型推理能力”这个领域充满了各种看似高深但又相互矛盾的技术,让实践者感到困惑。作者没有提出更复杂的新算法,而是返璞归真,在一个统一、开源的框架下对现有流行技术(所谓的“tricks”)进行了系统性的独立评估。他们最大的发现是,一个仅包含两种基本技术的极简组合“Lite PPO”,在提升基础模型(非对齐模型)的推理能力上,其性能竟然稳定超过了那些集成了五六种复杂技术的GRPO和DAPO等主流算法。这启发我们,在应用强化学习时,不应盲目堆砌技术,而应深入理解每个技术的核心作用,并根据具体场景(如模型类型、数据难度)做出明智选择,有时候“少即是多”。 当前研究领域的“混乱现象”及其背后的可能原因。例如,有的研究(GRPO)说“组级归一化”好,有的(REINFORCE++)则认为“批次级归一化”更优;有的算法在归一化时使用方差,有的却建议去掉方差以避免“难度偏见”。这种矛盾让从业者无所适从。作者认为,造成这种现象的根本原因在于各研究的实验设置、训练数据和初始模型千差万别,导致结论缺乏可比性。因此,本章启发我们,在评估或应用一个新技术时,必须高度关注其“实验背景”,并提出了一个关键问题引导后续研究:现有技术各自适用于什么场景?是否存在一个简单普适的组合来稳定地优化模型策略? 实验设计 统一框架: 所有实验都在一个开源的ROLL框架下进行,避免了因不同实现方式带来的差异。 多维度模型: 实验覆盖了不同尺寸(Qwen3-4B, 8B)和不同类型(Base基础模型 vs. Aligned对齐模型)的模型。这使得结论更具普适性,能够揭示技术对不同模型的敏感度。 分级数据: 使用了开源数据集,并创新性地将其划分为“简单”、“中等”、“困难”三个等级。这使得分析技术在不同难度任务下的表现成为可能,增加了研究的深度。 通过初步的基线实验,他们还发现了一个有趣的现象:对齐模型虽然起点高,但通过强化学习提升有限;而基础模型潜力巨大,更适合作为评估RL技术效果的“试金石”。 分析 4.1 归一化 (Normalization): 归一化的核心作用是稳定梯度,但如何归一化大有讲究。 启发1 (组级 vs. 批次级): “组级归一化”通常更稳定,因为它只在同一问题的多个答案间比较,不易受全局数据分布影响。而“批次级归一化”在奖励分布倾斜时容易崩溃,但若奖励范围拉大(如从{0, 1}变为{-1, 1}),它又能恢复效果。这表明归一化方法对奖励机制非常敏感。 启发2 (标准差的作用): 在简单任务中,模型输出的答案奖励可能高度一致(全对或全错),导致奖励的“标准差(std)”趋近于零。此时若用标准差去做分母进行归一化,会导致优势值被无限放大,引发梯度爆炸。因此,在这种场景下,去掉标准差项,仅用均值做中心化,反而能让训练更稳定。 启发3 (鲁棒的组合方式): 作者最终发现了一个更稳健的组合:使用“组级”的均值来计算奖励的相对好坏,同时使用“批次级”的标准差来进行缩放。这种“局部均值、全局标准差”的混合模式,既利用了组内比较的精确性,又通过全局标准差避免了因局部标准差过小而引发的不稳定问题。 4.2 更高上限的裁剪 (Clip-Higher): 这是对PPO中裁剪机制的改进。 启发4 (适用场景): 提高裁剪上限(如从0.2到0.28)主要对对齐模型(instruct model)有效。因为对齐模型本身推理能力较强,放宽更新限制能鼓励它探索更多样的解题路径,缓解“熵坍塌”(模型思维固化)。而基础模型由于探索能力本就较弱,放宽限制也难有作为,甚至会起反作用。 启发5 (语言学视角): 标准的裁剪会过度压制“therefore”、“if”等逻辑连接词的生成概率,因为这些词往往是开启新推理路径的关键,其概率变化较大。而提高裁剪上限则给予了模型更多使用这些连接词的自由,让推理结构更多样化。这揭示了超参数背后对模型生成内容风格的深远影响。 启发6 (参数的“缩放定律”): 对于小模型(4B),裁剪上限越高,性能似乎越好,呈现出一种“缩放”关系。但对于大模型(8B),这种关系消失了,存在一个最佳值(如0.28)。这提醒我们超参数的设置并非能简单地随模型尺寸线性缩放。 4.3 损失聚合 (Loss Aggregation): 启发7 (Token级 vs. 序列级): 这两种聚合方式的选择也依赖于模型类型。Token级损失(每个token贡献等同)更适合基础模型,因为它能确保模型从每个token中学到东西,这对于从零开始学习推理至关重要。而序列级损失(每个完整答案贡献等同)更适合对齐模型,因为它能更好地保持高质量答案的整体逻辑连贯性,避免因个别token的优化而破坏整体结构。 4.4 超长过滤 (Overlong Filtering): ...

August 12, 2025 · 小茄墩

深度解析 Attention Sinks 究竟为啥有效?

《How Attention Sinks Keep Language Models Stable》 语言模型在处理长对话时之所以会“崩溃”,是因为当为了节省内存而移除最开始的几个token时,模型会失去稳定性。研究者发现,模型会将大量的注意力“倾倒”在最初的几个token上,把它们当作“注意力池”,用来存放那些无处安放的注意力(因为Softmax函数强制要求所有注意力权重加起来等于1)。基于此,作者提出了StreamingLLM方案,即永久保留最初的4个token,其余部分则正常使用滑动窗口,从而让模型能稳定处理超过400万个token的超长文本。这一机制已被OpenAI、HuggingFace和英伟达等公司采纳。OpenAI在其最新的开源模型中,通过为每个注意力头增加一个可学习的标量$b$来实现类似功能,其公式为:$a_i' = softmax(q_i^T K + b)$。这个简单的改动,让模型在必要时可以选择“不关注任何token”,其设计思想正是源于这项研究。 流式处理的挑战与意外发现 者在2023年暑期实习时面临一个根本性问题:如何让大模型处理超出其预训练长度的对话?直接的方案是使用“滑动窗口”,即只保留最近一部分token的键值缓存(KV Cache),丢掉最旧的。这种方法虽然高效,但实验结果却出乎意料地失败了。一旦最开始的几个token(哪怕只是一个起始符或“the”之类的普通词)被从缓存中移除,模型的困惑度(Perplexity)就会急剧飙升,输出的文本瞬间变得语无伦次。这个现象令人费解,因为这些初始token在语义上似乎并不重要,但移除它们却导致了灾难性的后果,这激发了作者深入探究其背后原因的好奇心。 “注意力池”的发现与数学原理 为了解开谜团,作者对Llama-2等模型的注意力分布进行了可视化分析,结果发现了一个惊人的固定模式:在模型的多数层中,无论当前模型在预测哪个词,总有大量的注意力会“回头看”,集中在序列最开始的几个token上。这种行为让作者联想到了图论中的“汇点”(Sink Node),即一个只进不出的节点。这些初始token就像汇点一样,吸收了来自序列中其他位置的注意力,因此作者将其命名为“注意力池”(Attention Sinks)。其背后的数学原理源于Transformer架构的核心——Softmax函数:$softmax(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}$。这个函数有一个硬性约束:$\sum_{i=1}^{n} w_i = 1.0$,即所有注意力权重之和必须等于1。这意味着注意力机制不能“弃权”,必须把注意力分配到某个地方。当一个注意力头找不到特别相关的上下文时,它就会把这份“预算”投向那些因在训练中频繁出现而具有轻微偏见的初始位置,这些位置逐渐演变成专门存放闲置注意力的“泄压阀”。 问题的症结与简单的解决方案 这个发现让之前滑动窗口失败的原因豁然开朗。当移除初始token时,我们不只是丢掉了旧的上下文,而是破坏了Softmax函数分母中的一个重要部分,从而摧毁了模型维持注意力稳定的基础机制。解决方案因此变得异常简单:既然模型如此依赖这些注意力池,那我们就永远不要丢掉它们。作者提出的StreamingLLM方法,就是对传统KV缓存管理做了一个微小但关键的修改:永久保留最开始的4个“池”token,同时对其余内容使用滑动窗口。这个简单的改动带来了惊人的效果,像Llama这样原本处理几千个token就崩溃的模型,现在可以在超过400万个token的长度上保持稳定的低困惑度,实现了近乎无限长度的文本生成。 注意力池数量的探究与预训练实验 为什么恰好需要保留4个注意力池?为了回答这个问题,作者进行了一项预训练实验。他们从头训练了两个模型,一个采用标准方式,另一个则在每个训练样本的开头都加入了一个专门的[SINK](池)token。结果揭示了一个深刻的现象:标准模型在流式处理时需要保留大约4个初始token才能稳定,因为它是在“挪用”普通内容token作为隐式的注意力池;而被投喂了专用[SINK]token的模型,在流式处理时只需要保留这1个专用的池token就足够了,而且其训练收敛效果甚至更好。这个实验证明,模型天生就需要注意力池这个功能,并且可以通过预训练让它更高效地学会使用一个专门设计的“池”,而不是临时征用多个内容token。 两种实现路径:StreamingLLM与OpenAI的设计对比 OpenAI的实现代表了解决同一问题的不同思路。作者的StreamingLLM方法是在序列开头设置一个专门的、可学习的池token $k_0$,其注意力计算方式为:$Attention(q_i, K) = softmax(q_i^T K_c, q_i^T k_0)$,其中$K_c$是内容token。而OpenAI则采用了一个更简洁的通用标量方法:$a_i' = softmax(q_i^T K + b)$`。两者的核心区别在于:StreamingLLM的设计允许不同token与“池”建立不同的关系(更具表达性),而OpenAI的设计则将“池”视为一个对所有token都一样的通用“逃生通道”(更简洁)。这体现了两种不同的设计哲学:一个是将“池”视为一个可学习的组件,另一个则是将其作为一种架构上的必需品。 注意力池的科学解释与实际应用 有研究表明,注意力池可以充当“泄压阀”,防止深度模型在处理长序列时出现“信息过度混合”(over-mixing)的病态现象,即不同token的表征变得模糊不清。注意力池通过吸引注意力,限制了信息和噪声的过度传播,从而使模型更稳健。这一效应在LLaMA 3.1 405B这样的大模型中尤为明显,其80%的注意力头都表现出注意力池现象。另一项研究则指出,如果用不要求权重和为1的其他注意力操作替换Softmax,注意力池现象就会消失,这从根本上证实了其与Softmax归一化约束的直接关系。这些理论洞见也催生了实际应用,例如CushionCache技术利用精心设计的注意力池前缀来平滑激活峰值,从而改善模型的量化效果。这也让人推测,OpenAI模型内置的注意力池机制,可能是其能够实现激进的4-bit量化的关键技术之一。 从研究到现实:一个思想的快速演进 这个始于实习期工程难题的研究,最终演变成了对Transformer架构的深刻洞见。从2023年10月英特尔集成StreamingLLM,到12月HuggingFace和苹果手机上的演示,再到2024年1月英伟达TensorRT-LLM的采纳,最后到2025年8月OpenAI开源内置注意力池的模型,这项技术在不到两年的时间里迅速从学术论文走向了全行业的主流应用。这个故事告诉我们,有时重大的科学发现并非源于宏大的理论突破,而是来自于对那些被他人忽视的、微小而奇特现象的刨根问底。通过质疑几个看似无意义的token为何如此重要,作者团队揭示了一个隐藏在所有Transformer模型中、至关重要的底层机制。

August 12, 2025 · 小茄墩

Qwen团队:GSPO算法

《Group Sequence Policy Optimization》 稳定、高效地训练大语言模型。与以往算法在单个token层面计算重要性比例不同,GSPO 在整个序列的似然度(sequence likelihood)基础上定义重要性比例,并在序列级别上进行裁剪、奖励分配和优化。研究表明,GSPO相比于GRPO算法,在训练效率和模型性能上都表现更优,并且显著稳定了混合专家(MoE)模型的强化学习训练过程,还有简化强化学习基础设施的潜力。这些优点最终促成了最新的Qwen3模型的显著性能提升。 预备知识 理解GSPO所需要的基础知识。用 $\pi_{\theta}$ 表示自回归语言模型策略,x代表问题(query),y代表回答(response)。然后回顾了两种关键的现有算法。一是“近端策略优化”(Proximal Policy Optimization, PPO),它通过裁剪机制将策略更新限制在旧策略附近,其目标函数为 PPO的主要挑战是严重依赖一个与策略模型大小相当的价值模型(value model),这带来了巨大的计算和内存开销,而且价值模型的可靠性难以保证 。二是“群体相对策略优化”(Group Relative Policy Optimization, GRPO),它通过计算同一问题下多个回答之间的相对优势,从而绕开了对价值模型的需求。GRPO的目标函数为 其中优势函数 $\hat{A}_{i,t}$ 是通过将单个回答的奖励与一组回答的平均奖励进行比较得出的。 动机 在进行大规模RL训练时,为了充分利用硬件,通常需要很大的批次大小(batch size),并通过多轮小批次(mini-batch)更新来提高样本效率,这就引入了off-policy学习的场景,即用于优化的数据来自于旧策略 $\pi_{\theta_{old}}$ 而非当前策略 $\pi_{\theta}$ 。尽管PPO和GRPO中的裁剪机制是为了应对这种偏离,但作者指出GRPO的目标函数存在一个更根本的设计缺陷。这个缺陷源于对重要性采样权重的不当使用 。重要性采样的原理 $E_{z\sim\pi_{tar}}[f(z)]=E_{z\sim\pi_{beh}}[\frac{\pi_{tar}(z)}{\pi_{beh}(z)}f(z)]$ 要求通过对多个样本的加权平均来修正分布差异。然而,GRPO在每个token(token)级别上应用权重$\frac{\pi_\theta\left(y_{i, t} \mid x, y_{i,

July 25, 2025 · 小茄墩

Gemini 2.5 Pro 制胜 IMO 的提示词全解析

《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025》 整个流程被分解为以下6步: 步骤 1:生成初始解决方案; 步骤 2:自我改进; 步骤 3:验证解决方案并生成错误报告; 步骤 4:审查错误报告; 步骤 5:根据错误报告修正或改进解决方案; 步骤 6:接受或拒绝。 作者发现模型存在“思考预算”(即token限制),一次性生成完整复杂的证明非常困难。因此,他们让模型先生成初步解答,再让它自己“审阅和改进”,这相当于给了模型第二次机会和额外的思考预算来深化推理,这是一个非常实用的技巧。 其次,验证者的设计至关重要。它被指令扮演一个极其严格的IMO阅卷人,其任务不是修正错误,而是找出所有问题。最巧妙的做法是将问题分为两类:“关键错误”(Critical Error)和“论证缺陷”(Justification Gap)。如果发现关键错误,该证明路径就被中止;如果只是论证不够严谨,验证者会**“假设此步骤结论为真”**,然后继续检查后续逻辑。这种做法能够最大化地利用部分正确的证明,避免因小瑕疵而全盘放弃。同时,流程中还包括了审查(步骤4),以纠正验证者自身可能犯的错误,最终一个解法需要连续通过5次验证才被接受,确保了结果的高度可靠性。 实验设置 在参数上,他们选择低“温度” (temperature=0.1),以减少模型输出的随机性,确保逻辑的稳定性;同时用满了模型的“思考预算” (32768 tokens),给予模型最充分的思考空间。 初始解题提示词(Step 1 Prompt):核心指令是**“严谨性至上”(Rigor is Paramount)**,明确告诉模型“逻辑错误的正确答案等于失败”。它还引导模型,如果无法得出完整解,就必须诚实地只提交自己能严格证明的“部分成果”,并给出了“部分成果”的定义(如证明一个关键引理)。这种设计极大地抑制了模型的幻觉和猜测行为。 Step 1 Prompt 核心指令 严谨至上:您的首要目标是产出完整且经过严谨论证的解法。解法中的每一步都必须逻辑严密、解释清晰。任何基于有缺陷或不完整推理得出的正确最终答案,均视为失败。 对完整性保持诚实:如果您无法找到完整的解法,绝不能猜测或编造看似正确但包含隐藏缺陷或论证空白的解法。您只应呈现能严格证明的重要部分结果。若一个部分结果代表了向完整解法迈出的实质性进展,则该结果被认为是重要的。例如: 证明一个关键引理。 在一个逻辑严密的分类讨论证明中,完全解决一个或多个案例。 确立问题中数学对象的某一关键属性。 对于优化问题,证明一个上界或下界,而无需证明该界限是可达的。 为所有数学内容使用 TeX: 所有数学变量、表达式和关系式都必须用 TeX 分隔符包围(例如:‘ Let $n$ be an integer .)。 输出格式 您的回复必须严格按照以下确切顺序,结构化为下列部分。 摘要 提供您研究结果的简明概述。此部分必须包含两个部分: a. 定论:清楚说明您是找到了完整的解法,还是部分解法。 对于完整的解法:陈述最终答案,例如:“我已成功解决该问题。最终答案是……” 对于部分解法:陈述您能够严格证明的主要结论,例如:“我未能找到完整的解法,但我已严格证明……” b. 方法简述: 呈现您解法的高层次概念性大纲。该简述应能让专家在不阅读完整细节的情况下理解您论证的逻辑流程。它应包括: ...

July 23, 2025 · 小茄墩

当今旗舰开源大语言模型架构大比拼

大语言模型架构大比拼 图 1:本文所涵盖的部分架构。 自最初的 GPT 架构开发以来,已经过去了七年。乍一看,回顾 GPT-2(2019 年)并展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人们可能会惊讶于这些模型在结构上仍然如此相似。当然,位置嵌入已从绝对位置嵌入演变为旋转位置嵌入(RoPE),多头注意力(Multi-Head Attention)已在很大程度上让位于分组查询注意力(Grouped-Query Attention),而更高效的 SwiGLU 也取代了像 GELU 这样的激活函数。但在这些微小的改进之下,我们是否真正看到了突破性的变化,还是我们仅仅在打磨相同的架构基础? 比较大语言模型以确定促成其良好(或不那么好)性能的关键因素是出了名的困难:数据集、训练技术和超参数差异巨大,且通常没有详细记录。然而,我认为,审视架构本身的结构性变化,看看大语言模型开发者在 2025 年都在做些什么,仍然具有很大的价值。(图 1 中展示了其中的一部分。) 所以,在本文中,我不会着重介绍基准性能或训练算法,而是将焦点放在定义当今旗舰开源模型的架构发展上。 1. DeepSeek V3/R1 1.1 Multi-Head Latent Attention (MLA) 所以,GQA 的核心思想是通过在多个查询头之间共享键头和值头,从而减少其数量。这样做有两点好处:(1) 降低了模型的参数量;(2) 减少了推理过程中键张量和值张量的内存带宽占用,因为需要从 KV 缓存中存储和检索的键和值变少了。 虽然 GQA 主要是一种旨在提升 MHA 计算效率的变通方案,但消融研究(例如原始 GQA 论文和 Llama 2 论文中的研究)表明,在 大语言模型建模性能方面,其表现与标准 MHA 不相上下。现在,多头潜在注意力 (Multi-Head Latent Attention, MLA) 提供了另一种不同的内存节省策略,该策略与 KV 缓存的结合效果也特别好。与 GQA 共享键头和值头的方式不同,MLA 在将键张量和值张量存入 KV 缓存之前,会先将它们压缩到一个更低维度的空间。 在推理期间,这些被压缩的张量在使用前会被投影回原始尺寸,如下图 3 所示。这个过程增加了一次额外的矩阵乘法,但减少了内存占用。 ...

July 19, 2025 · 小茄墩

Qwen存在严重数据污染,基于Qwen的RL论文可靠性存疑

《Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination》 本文对为什么像Qwen这样的大语言模型在使用随机甚至错误的奖励信号进行强化学习后,在数学推理任务上表现反而更好——提出了一个基于“数据污染”的合理解释。研究者没有轻易接受“模型能力强”或“强化学习有奇效”的表面结论,而是设计了一系列实验来验证他们的怀疑。关键做法是,他们发现Qwen模型家族在MATH-500等著名数学基准测试上表现出的惊人性能,很可能是因为它在预训练时接触过这些基准测试的题目和答案。为了证明这一点,他们创建了一个全新的、完全合成的、保证无泄漏的数学计算数据集RandomCalculation。在这个干净的数据集上,先前观察到的“奇迹”消失了:只有准确的奖励信号才能稳定提升模型的推理能力,而错误或随机的奖励则毫无助益。这一过程为我们揭示了在评估大模型能力时,必须警惕和排除数据污染问题,否则可能会得出不可靠甚至错误的结论。 研究者观察到,强化学习(RL)技术能显著提升大语言模型(LLMs)的推理能力,特别是Qwen系列模型在数学基准测试上取得了SOTA(顶尖水平)的结果。但奇怪的是,一些研究声称,即使给予Qwen模型随机或错误的奖励信号,其性能也能提升,而这种现象在Llama等其他模型上却不成立 。为了解释这个现象,论文提出了两个对立的假设: (1)数据污染:Qwen在海量网络数据预训练时,可能无意中“背诵”了评测基准(如MATH-500)的题目和答案。因此,看似随机的奖励实际上是触发了模型去回忆这些背过的答案。 (2)基线数学能力强:Qwen本身数学基础就好,所以即使是噪声奖励也能帮助它。为了验证哪个假设是正确的,作者设计了明确的步骤:首先,通过“部分提示词补全”实验来检测模型是否对基准数据存在记忆;其次,构建一个全新的、无污染的合成数据集RandomCalculation 。 最后,在这个干净的数据集上重新进行强化学习实验,观察不同奖励信号的真实效果 。 相关工作 第一条线是关于在Qwen2.5上应用强化学习提升数学推理能力的研究。作者们列举了多种新兴的RL方法,如RLVR(基于可验证奖励的强化学习)、TTRL(测试时强化学习)以及各种利用熵或自洽性作为内在奖励信号的技术,并承认它们在Qwen上取得了显著成功。但同时,他们也引用了质疑这些成果普适性的研究,特别是那些指出随机奖励仅对Qwen有效而对Llama等模型无效的论文,从而引出“模型特定性”的问题。 第二条线是预训练语料对推理能力的影响 。作者指出,模型的数学能力很大程度上由其预训练数据决定,不同模型(如Qwen和Llama)对强化学习的反应不同,根源可能就在于其接触的训练数据存在差异。通过梳理这两方面工作,作者巧妙地将“RL在Qwen上的奇特效果”与“预训练数据的重要性”联系起来,为后续的数据污染调查铺平了道路。 实验设置 首先,在模型选择上,他们选取了参数量相当的Qwen2.5和Llama3.1系列模型进行对比,这遵循了控制变量的原则,旨在分离出模型本身的特性而非规模带来的差异。其次,核心的创新在于记忆能力评估的设计。他们没有采用常规的完整问题测试,而是提出了两个巧妙的指标: (1)部分提示词补全率:只给模型问题的前40%或60% ,看它能否准确生成剩余的部分。这通过ROUGE-L(衡量最长公共子序列)和EM(完全匹配)来量化,如果模型能高概率补全,则说明它很可能“见过”原题。 (2)部分提示词答案准确率:在只给出部分提示的情况下,看模型能否直接给出正确答案。如果模型在问题不完整时仍能答对,这是数据污染的强烈信号。最后,在强化学习评估中,他们为自己创建的RandomCalculation数据集设计了一个连续奖励函数:$r = 1 - 0.5 \cdot min(|a-b|, 1) - 0.5 \cdot min(\frac{|a-b|}{|b|+\epsilon}, 1)$ 。这个函数同时考虑了预测值与真实值的绝对和相对误差,解决了新数据集中答案是高精度小数、传统0/1奖励过于稀疏难以训练的问题,确保了RL训练的稳定性和有效性。 结果与分析 复现问题:研究者首先在MATH-500数据集上成功复现了反常现象——随机和错误奖励确实提升了Qwen-Math-7B的性能,但对Llama却有负面影响。他们还敏锐地发现,Qwen基础模型的部分性能提升,仅仅是因为学习适应了评测时使用的对话模板,这揭示了评估中需要注意的陷阱。 定位原因:通过前述的“部分提示词”测试,他们拿出了数据污染的“铁证”。结果显示,在MATH-500这类旧基准上,当只给出60%的问题时,Qwen2.5-Math-7B能以高达54.6%的概率精确补完剩余问题,并且依然能正确解答;而Llama的对应得分几乎为零。更具说服力的是,在一个模型发布后才创建的新基准LiveMathBench上,Qwen的补全率骤降至0%,与Llama表现一致。这强有力地证明了Qwen对旧基准存在记忆,所谓的“随机奖励提升性能”实际上是触发了模型的记忆提取机制。 第三步,验证结论:为了彻底排除干扰,他们在自创的、无污染的RandomCalculation数据集上进行了最终实验。结果非常清晰:在这个干净的环境里,“魔法”消失了。无论是Qwen还是Llama,都只有在获得正确奖励信号时,性能才会稳定提升,而随机或错误奖励则完全无效。这直接证实了数据污染才是根本原因,而非模型本身有什么特异功能。

July 16, 2025 · 小茄墩

关于 OpenAI 的一些思考 -- Calvin French-Owen

《Reflections on OpenAI》 2025年7月15日 我是三周前离开 OpenAI 的,而我加入公司是在 2024 年 5 月。 我想分享我的思考,是因为外界对 OpenAI 的所作所为众说纷纭、传闻不断,但却鲜有人亲口讲述在那儿工作的真实文化氛围。 Nabeel Quereshi 写过一篇很棒的文章,叫《关于 Palantir 的一些思考》,文中他详细阐述了 Palantir 的特别之处。我也想趁着记忆犹新,为 OpenAI 写下同样的文字。你在这里不会看到任何商业机密,更多的是关于这个史上最引人入胜的组织之一,在当前这个极不寻常时期的一些个人感悟。 首先声明:我决定离开并非出于任何个人恩怨——实际上,这个决定曾让我内心无比纠结。从一个创业公司的创始人,转变为一个三千人大机构的员工,这个过程并不容易。眼下,我渴望的是一个全新的开始。 这份工作的魅力完全有可能再次将我吸引回来。毕竟,很难想象有什么工作能比构建通用人工智能 (AGI) 更具影响力了,而大语言模型 (LLM) 无疑是这十年来的顶尖技术创新。能够亲身见证一些技术进展,并参与 Codex 项目的发布,我深感幸运。 当然,这些仅为个人观察,不代表公司立场。OpenAI 是个庞大的机构,本文只是我管中窥豹,所见一斑。 文化 了解 OpenAI,首先要知道它的发展速度有多惊人。我刚加入时,公司才 1000 多人。一年后,员工数已超过 3000,而按司龄算,我已经排进了前 30%。几乎所有领导层当前的工作,都和他们两三年前的职责大相径庭。 当然,如此迅猛的扩张之下,各种问题都会暴露出来:公司层面的沟通方式、汇报结构、产品交付流程、人员管理与组织、招聘过程等等。不同团队的文化也大相径庭:有些团队始终在全力冲刺,有些则需要时刻盯着大型计算任务,还有一些则保持着更为稳健的节奏。在 OpenAI 没有所谓的单一体验,研究、应用和市场(GTM)团队的运作周期和视角也截然不同。 OpenAI 有一个特别之处:所有事情——我是说所有事情——都在 Slack 上进行。这里没有电子邮件。我在那里的全部时间里,大概总共只收到过 10 封邮件。如果你不善于整理信息,会觉得这种工作方式极易让人分心。但如果你能精心管理自己的频道和通知,它还是相当高效的。 OpenAI 的文化是高度自下而上的,在研究领域尤其如此。我刚加入时,曾询问下一季度的路线图。得到的答复是:“我们没有那东西”(不过现在有了)。好的想法可以来自任何地方,而且事先往往很难判断哪个想法会最有成效。这里没有宏大的“总体规划”,所谓的进展,是在新研究不断结出硕果的过程中,一步步探索出来的。 正是得益于这种自下而上的文化,OpenAI 也非常任人唯贤。长久以来,公司领导者的晋升,主要看他们是否能提出好想法并将其付诸实践。许多能力超群的领导者,其实并不擅长在全员大会上演讲或玩弄办公室政治。但在 OpenAI,这些能力远不如在其他公司那么重要。最终,最好的想法总能脱颖而出。 这里有一种强烈的行动偏好(即“先做再说”)。不同团队(即使业务不相关)不约而同地想到一块儿去,是常有的事。我最初就参与了一个与 ChatGPT Connectors 类似的内部并行项目。在我们决定正式推出 Codex 之前,公司内部至少同时存在三到四个不同的原型。这些项目通常由少数几个人在没有申请许可的情况下自发启动。一旦项目显现出潜力,团队就会迅速围绕它们组建起来。 Andrey(Codex 项目负责人)曾对我说,你应该把每个研究员都看作是独立的“迷你 CEO”。他们有强烈的自主性,喜欢专注于自己的项目,看最终能做出什么。这里有一个推论——大部分研究课题,都是通过用一个极具吸引力的技术难题去“钓”(nerd-sniping)一个研究员来解决的。如果一件事被认为是无聊或“已解决”的,那它很可能就没人去做了。 优秀的研究经理影响力巨大,同时也极其稀缺。最顶尖的经理能将许多不同研究方向的成果串联起来,整合成更大规模的模型训练。优秀的 PM(产品经理)也是如此(在此特别感谢 ae)。 我合作过的 ChatGPT 团队的 EM(工程经理)们(Akshay、Rizzo、Sulman)是我见过的最沉着冷静的“客户”。你真的会觉得,他们在这个位置上已经见过了各种大风大浪。他们中的大多数人管理风格都比较放手,但他们会招募优秀的人才,并努力为这些人创造成功所需的一切条件。 ...

July 16, 2025 · 小茄墩

斯坦福最新研究:AI幻觉不是玄学,是算力有上限!

《Hallucination Stations On Some Basic Limitations of Transformer-Based Language Models》 大语言模型(LLM)存在“幻觉”现象,即生成虚假或无意义的信息。作者从计算复杂性的新颖角度来探讨这一局限性 。随着LLM越来越多地被用于构建能自主执行任务的“智能体”(Agentic AI),理解其能力边界变得至关重要。作者提出,无论是执行计算任务还是验证任务的准确性,只要任务的复杂度超过一个特定阈值,LLM就必然会失败。 LLM的计算复杂性及其影响 任何计算任务的解决都无法快于其固有的计算复杂度。作者指出,LLM生成单个词元(token)的核心操作,其计算复杂度为 $O(N^{2}.d)$,其中 $N$ 是输入序列的长度,$d$ 是模型的维度。这意味着LLM处理任何任务所能执行的计算步骤有一个明确的上限。因此,如果一个任务本身所需的计算步骤从根本上就多于这个上限(例如,复杂度为 $O(n^{3})$ 或指数级的任务),那么LLM在理论上就不可能正确完成这个任务。这个论证为我们提供了一个关键的评判标准:通过比较任务的内在复杂度与LLM的计算能力上限,我们可以预判LLM在处理该任务时是否会“碰壁”,从而产生幻觉。 示例1:词元组合 这个例子非常直观地展示了上述理论。作者提出了一个任务:“给定一个包含n个词元的集合,列出所有长度为k的字符串”。要完成这个任务,需要进行的计算量是 $O(n^{k})$,这是一个指数级的增长。当n和k的值增大时,这个数值会轻易地超过LLM的计算能力上限 $O(N^{2}.d)$ 。LLM也许能根据提示生成一些看起来合理的序列,但它并不是在真正地执行指数级的枚举计算,而只是在根据概率预测下一个最可能的词元。这启发我们,即使LLM的回答在表面上看起来正确,它也可能没有遵循任务要求的计算逻辑,尤其是在面对需要穷举所有可能性的组合问题时,其结果很可能是不可靠的。 示例2:矩阵乘法 矩阵乘法是另一个经典的计算问题,其标准算法的计算复杂度是 $O(n^{3})$(或更精确地说是 $O(m \cdot n \cdot p)$)。作者指出,当矩阵的维度超过LLM的词汇量规模时,LLM将无法正确执行乘法计算。这个例子进一步巩固了核心论点,并将其扩展到更多在现实世界中常见的、具有高阶多项式复杂度的计算任务,如寻找最短路径的Floyd-Warshall算法、某些数据库操作以及计算流体力学等。这给我们的启发是,在将LLM应用于需要精确数值计算,特别是涉及大规模矩阵或网络问题的科学和工程领域时,必须极其谨慎,因为这些任务的复杂度往往超出了LLM的能力范围。 示例3:智能体AI 本节将前面的讨论扩展到当前热门的智能体AI领域。智能体AI是指利用LLM自主决策和执行任务的系统,应用场景包括金融交易、预订服务乃至工业控制。作者论证说,如果一个任务本身的计算复杂度就超过了 $O(N^{2}.d)$,那么无论是直接让LLM执行,还是将其包装成一个智能体来执行,结果都是一样的:任务无法被正确完成。更有启发性的是,作者进一步探讨了用一个智能体($A_{2}$)去验证另一个智能体($A_{1}$)的任务结果是否可行。结论是不可行的,因为在许多情况下,验证一个解的正确性(尤其是最优解)需要同等甚至更高的计算复杂度 。例如,验证一个旅行商问题(TSP)的解是否为最短路径,需要对比所有可能的路径,这是一个阶乘级别的计算量($\frac{(n-1)!}{2}$),远远超过LLM的能力。这警示我们,试图构建一个“监督者”LLM来检查“工作者”LLM的复杂计算结果,这条路在理论上是走不通的,我们不能依赖LLM来自我纠错或相互验证。 定理1及其证明 给定一个长度为N的提示,其中包含一个计算复杂度为 $O(n^{3})$ 或更高的任务(其中$n...

July 16, 2025 · 小茄墩

Karpathy:强化学习不是最终答案,那下一个风口是?

扩大强化学习的规模是时下的一大热点,我昨天刚和朋友聊过这个话题。我相当肯定,RL 会持续带来更多中期收益,但我也并不认为它就是最终的解决方案。 RL 的基本逻辑是:“嘿,这次做得不错(/很糟),那么在未来,我就稍微增加(/减少)我所采取的每一个行动的概率”。你从验证器函数中能获得比显式监督强大得多的杠杆效应,这非常棒。 但首先,从渐进的角度看,这件事就有点可疑了——一旦任务的交互时长增加到几分钟甚至几小时,你真的要费那么大劲,只为了在最终学习到一个单一的标量结果,并用它来直接调整梯度权重吗?其次,除了渐进性问题,对于大多数智能任务而言,这感觉上并不像是人类的学习改进机制。在每一次推演后,我们通过一个复盘/反思阶段——“哪些地方做得好?哪些地方不太好?下次我该尝试什么?”——能提取出远为丰富的监督信息。并且,来自这个阶段的经验教训是明确的,就像一条可以被添加到未来系统提示词中的新指令,并可以选择性地在之后(有点像睡眠)被蒸馏为模型的权重(/直觉)。在英语中,我们称某件事通过这个过程变成了“第二天性”(second nature),而我们目前正缺少这样的学习范式。ChatGPT 中新的“记忆”功能或许就是这种范式的一个雏形,尽管它目前只用于个性化定制,而非解决问题。值得注意的是,在雅达利游戏的 RL 等场景中,并不存在与之对等的机制,因为那些领域里没有大语言模型(LLM),也没有上下文学习(in-context learning)。 示例算法:给定一个任务,先进行几次推演(rollout),然后将所有推演过程(包括每一次的奖励)都塞进一个上下文窗口,再用一个元提示词(meta-prompt)来复盘/反思哪些地方做得好或不好,从而提炼出一条字符串形式的“经验教训”,并将其添加到系统提示词中(或者更通用地说,更新当前的经验教训数据库)。这个想法还有许多细节有待填补,有许多可行的调整,前景并不明朗。 经验教训的示例:我们知道,由于 Token 化处理,大语言模型不太容易看清单词中的字母,也不太容易在残差流(residual stream)中进行计数,这导致了著名的难题——识别“strawberry”中的‘r’。Claude 的系统提示词里打了一个“快速补丁”,即添加了这样一条指令:“如果用户要求你计数字母,请先将字母用逗号隔开,每数一个就给一个显式计数器加一,并以此方式完成任务”。这条字符串就是“经验教训”,它明确地指导了模型该如何完成计数任务。但问题在于,这样的经验教训如何能从 AI 智能体的实践中自发涌现,而不是由工程师硬编码进去?它该如何被泛化?以及如何随着时间推移对这些经验教训进行蒸馏,以避免上下文窗口被无限撑大? 总而言之:RL 将会带来更多进步,因为一个优秀的 RL 系统能起到更强的杠杆作用,更信奉“惨痛教训”(The Bitter Lesson)的理念,并且优于监督微调(SFT)。但这感觉并非故事的全部,尤其是当推演的长度还在不断增加时。在这之后,还有更多的 S 型增长曲线等待我们去发现,这些曲线可能专属于大语言模型,在游戏或机器人这类环境中没有先例,而这,正激动人心。

July 14, 2025 · 小茄墩

百度:多智能体AI搜索范式

《Towards AI Search Paradigm》 本文提出了一个“AI搜索范式”,区别于传统搜索引擎和现有检索增强生成(RAG)系统的工作模式。传统的搜索系统像一条直线流水线,按部就班地检索、排序、生成答案,难以处理需要多步骤推理的复杂问题。这篇论文提出的新范式则像一个动态协作的专家团队,由四个核心的LLM(大语言模型)智能体组成:Master(大师)、Planner(规划师)、Executor(执行器)和Writer(作家)。Master负责分析用户问题的复杂性并组建最合适的智能体团队;Planner负责将复杂问题分解成一个可执行的计划图;Executor负责调用各种工具(如搜索、计算)来完成具体的子任务;Writer则负责综合所有结果,生成一个全面、连贯的答案。这种架构的精髓在于其动态性和协作性,能够像人一样思考、规划并解决问题,而不是机械地匹配和生成。 系统概述 通过一个具体的例子“汉武帝和凯撒谁更年长,年长多少岁?”生动地展示了新范式的工作流程,并与传统RAG系统进行了对比,其启发性在于揭示了“规划”在信息处理中的重要性。该系统会根据问题的复杂程度,选择三种不同的团队配置:对于“汉武帝叫什么名字”这类简单问题,采用**“作家-唯一(Writer-Only)”配置,直接生成答案;对于“今天北京天气适合出门吗”这类需要外部信息但无需复杂推理的问题,采用“执行器-包含(Executor-Inclusive)”配置,由执行器调用天气工具后,作家再整合信息;而对于汉武帝与凯撒年龄比较的复杂问题,则启动最高级的“规划师-增强(Planner-Enhanced)”**配置。在这个模式下,Master首先识别出问题的复杂性,然后委派Planner。 Planner会将问题分解为三个子任务:1. 搜索汉武帝的生卒年份;2. 搜索凯撒的生卒年份;3. 计算年龄差。这个过程被构建成一个有向无环图(DAG),清晰地表达了任务间的依赖关系。随后,Executor按图索骥,调用搜索和计算工具完成任务,最后由Writer综合信息,生成最终答案。这个流程与传统RAG系统一次性检索或简单的“思考-行动”循环相比,展现了更强的逻辑性、鲁棒性和解决复杂问题的能力。 任务规划师 任务规划师是整个系统的大脑,本章详细阐述了它如何解决“规划什么”和“用什么规划”的核心问题。首先,为了解决不同工具API接口标准不一的问题,系统引入了模型-上下文协议(MCP),这是一个统一的、中立的工具接口标准,让所有工具都能被AI无缝理解和调用。其次,面对海量工具,Planner并非全部加载,而是引入了动态能力边界(Dynamic Capability Boundary)的概念。具体做法是:先通过一个名为DRAFT的自动化框架,通过“经验收集-经验学习-文档重写”的循环,迭代优化工具的API文档,使其对LLM更友好;然后,利用k-means++算法对工具进行功能聚类,形成“工具包”以备不时之需(如同一个工具坏了,可以从同类工具包中找替代品);最后,通过一个名为COLT的先进检索方法,该方法不仅看重查询与工具的语义相似性,更通过图学习捕捉工具间的“协作关系”(例如,解决一个复杂问题需要计算器、汇率查询、股价查询三个工具协同工作),从而为当前任务检索出一个功能完备的工具集。在拥有了合适的工具后,Planner会利用思维链和结构化草图提示策略,将用户的复杂查询生成一个基于DAG(有向无环图)的全局任务计划。这个计划是机器可读、可验证的,并且在执行过程中,Master会持续监控,一旦发现执行失败或结果不完整,便会指导Planner进行反思和重新规划(Re-Action)。最后,为了让Planner变得更聪明,系统还采用强化学习(GRPO算法)对其进行优化,其奖励函数综合考虑了最终答案的正确性、用户反馈、输出格式和中间步骤的执行成功率,通过一个全面的奖励信号$\mathcal{R}_{All}=\mathcal{R}_{Ansuver}+\mathcal{R}_{Feedback}+\mathcal{R}_{Format}+\mathcal{R}_{Execution}$来指导Planner学习更优的规划策略。 任务执行器 (Task Executor) 它将传统搜索中“服务于人”的排序目标,转变为“服务于LLM”的召回目标。也就是说,执行器的首要任务不再是给用户提供一个最佳的点击链接列表,而是为后续的Writer(作家)智能体提供一套全面、高质量、让LLM能“读懂”并用于生成答案的参考文档。为了实现LLM偏好对齐(LLM Preference Alignment),执行器采取了四大关键措施:1. LLM标注:利用RankGPT(通过滑动窗口处理长列表)和TourRank(模拟体育赛事中的“锦标赛”机制)等高效的列表排序方法,让LLM来为文档排序,生成高质量的训练数据。2. 参考选择:通过分析LLM在生成答案时实际引用了哪些文档,反过来优化检索策略,从而在未来更倾向于检索这类高质量的文档。3. 生成奖励:这是一种更直接的对齐方式,通过强化学习,让排序器(Ranker)尝试不同的排序策略(如“时效性优先”或“权威性优先”),然后根据生成器(Generator)产出答案的好坏给予奖励或惩罚,直接以最终答案质量为导向来优化排序。4. LLM排序的蒸馏:将一个强大的、但推理成本高昂的“教师”LLM的复杂排序能力,通过RankNet损失函$\mathcal{L}=\sum_{i=1}^{n}\sum_{j=1}^{n}1_{r_{i}^{\prime}<\sigma_{j}^{\prime}}log(1+exp(s_{i}^{S}-s_{j}^{S}))$,“蒸馏”到一个轻量级的、适合在线部署的“学生”排序模型中。此外,为了应对AI搜索中海量子查询带来的性能压力,本章还提出了构建轻量级系统的思路,即用一个统一的LLM模型替代传统“倒排索引+向量检索+精排”的复杂多阶段架构,并利用LLM增强特征,让LLM直接从文本和图像中提取更深层次的语义特征(如权威性、时效性),从而极大地简化了系统并提升了效果。 **基于LLM的生成 ** 本章聚焦于Writer(作家)智能体,其核心启发在于如何确保最终生成的答案既鲁棒(不怕干扰)、又对齐(符合用户期望),并且能从用户行为中持续学习。关键做法如下:1. 构建鲁棒的RAG系统:为了应对检索器召回的文档中可能存在的噪声和错误,论文提出了一种名为ATM的对抗性训练方法。该方法引入一个“攻击者(Attacker)”智能体,专门负责制造假知识或打乱文档顺序来“攻击”输入,而“生成器(Generator)”,即Writer,则被训练来抵御这种攻击,从而增强其在嘈杂环境下的表现。这个过程通过一个创新的MITO损失函数$\mathcal{L}_{M\Gamma TO}=\mathcal{L}_{SFT}(a|q,D^{\prime})+\alpha\mathcal{L}_{KL}$进行迭代优化。2. RAG任务对齐:为了让生成结果符合用户的三大核心需求——信息丰富度、鲁棒性和引用质量,论文提出了PA-RAG技术。它通过一个两阶段过程实现对齐:首先,通过指令微调让模型具备基础的利用和引用文档的能力;然后,通过直接偏好优化(DPO)技术,按照“信息丰富度 -> 鲁棒性 -> 引用质量”这个由易到难的顺序,对专门构建的偏好数据进行分阶段、课程学习式的优化。3. 利用用户反馈进行优化:为了让模型持续进步,论文提出了RLHB(基于人类行为的强化学习)方法。它不再依赖昂贵的人工标注,而是直接将在线用户的真实行为(如点击、点赞、页面停留时间)转化为奖励信号,通过一个判别器和生成器的对抗训练机制,让Writer的生成策略直接对齐真实用户的偏好。4. 多智能体联合优化:为了解决RAG系统中各模块(规划器、执行器、作家)单独优化可能导致“局部最优,全局不优”的问题,论文提出了MMOA-RAG框架。该框架将整个RAG流程视为一个多智能体协作任务,使用多智能体PPO(MAPPO)算法进行端到端联合优化。所有智能体共享一个最终的全局奖励(如最终答案的F1分数),并结合各自的惩罚项(如规划器生成过多子问题、作家生成答案过长等),从而确保整个团队为了“生成高质量答案”这一共同目标协同工作。 轻量化LLM生成 如何为计算和存储密集型的LLM“瘦身”,以满足搜索应用对低延迟和低成本的苛刻要求。这些轻量化技术分为两大类: 算法层面:核心是减少模型的计算量和参数量。具体方法包括局部注意力(Local Attention),即用计算成本更低的注意力机制(只关注部分上下文)来替代需要全局计算的原始注意力机制,并且这种替换通常只需少量微调甚至无需训练;以及模型剪枝(Model Pruning),特别是结构化剪枝,它直接移除整个神经元、注意力头甚至网络层,从而得到一个更小、更快的稠密模型,能直接在现有硬件上加速。 基础设施层面:核心是优化推理流程和资源利用。具体方法包括专门针对搜索场景的输出长度缩减(通过提示、训练或压缩中间状态,让模型输出更简洁)、语义缓存(Semantic Caching)(缓存相似问题的答案,避免重复计算);以及更通用的技术,如量化(Quantization)(将模型权重从高精度浮点数转为低精度整数或浮点数,减小内存占用并加速计算)、Prefill-Decode分离部署(将计算密集的提示处理阶段和内存带宽密集的生成阶段分开部署,优化资源分配),以及推测解码(Speculative Decoding)(用一个小的“草稿”模型快速生成多个候选词,然后由大模型一次性并行验证,从而加速生成过程)。 评估 本章的启发在于它不仅展示了新范式的优越性,还通过多维度、多场景的评估方式验证了其有效性。在人工评估中,系统将新范式(AI Search)与传统系统(Web Search)的结果进行“背靠背”比较,并使用归一化胜率(NWR) $NWR=\frac{\#Win-\#Lose}{\#Win+\#Tie+\#Lose}$ 这一量化指标。结果显示,对于简单问题,两者表现相当;但对于中等复杂和复杂问题,新范式的优势显著,尤其在复杂查询上实现了13%的相对提升,证明了其强大的推理和规划能力。在在线A/B测试中,系统在真实的百度搜索流量上进行了实验,结果显示新范式显著改善了多项核心用户体验指标,如查询改写率(CQR)降低1.45%(说明用户更容易一次性得到满意答案),日活跃用户数(DAU)提升1.85%,页面浏览量(PV)和用户停留时间(Dwell Time)也均有提升。最后,通过案例分析直观对比了新旧系统在处理简单查询“泰山多高?”和复杂查询“汉武帝和凯撒谁更年长?”时的表现差异,生动地展示了新范式在面对需要多步推理和工具调用的复杂问题时,如何通过规划、分解、执行、综合的流程得出正确答案,而传统系统则无能为力。 结论 本章总结了论文的核心贡献,其启发性在于清晰地勾勒出了下一代AI驱动搜索引擎的蓝图。论文提出的模块化、多智能体AI搜索范式,通过模拟人类的协作式问题解决流程,有效地克服了传统信息检索(IR)和现有RAG系统的局限性。该范式通过主动规划、动态工具整合和迭代推理,将搜索体验从被动的“文档列表提供者”提升为主动的“问题解决伙伴”,显著降低了用户的认知负担。这项工作不仅集成和优化了学术界与工业界的前沿技术,为未来的AI搜索研究和开发提供了一个结构清晰、内容详实的实践指南,也为如何实现更高效的智能体协作与无缝工具集成等未来研究方向指明了道路。

June 24, 2025 · 小茄墩