👋 欢迎

首发于小红书，欢迎关注

小红书，知乎，公众号：一只小茄墩

🧧 鼓励

Qwen存在严重数据污染，基于Qwen的RL论文可靠性存疑

《Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination》本文对为什么像Qwen这样的大语言模型在使用随机甚至错误的奖励信号进行强化学习后，在数学推理任务上表现反而更好——提出了一个基于“数据污染”的合理解释。研究者没有轻易接受“模型能力强”或“强化学习有奇效”的表面结论，而是设计了一系列实验来验证他们的怀疑。关键做法是，他们发现Qwen模型家族在MATH-500等著名数学基准测试上表现出的惊人性能，很可能是因为它在预训练时接触过这些基准测试的题目和答案。为了证明这一点，他们创建了一个全新的、完全合成的、保证无泄漏的数学计算数据集RandomCalculation。在这个干净的数据集上，先前观察到的“奇迹”消失了：只有准确的奖励信号才能稳定提升模型的推理能力，而错误或随机的奖励则毫无助益。这一过程为我们揭示了在评估大模型能力时，必须警惕和排除数据污染问题，否则可能会得出不可靠甚至错误的结论。研究者观察到，强化学习（RL）技术能显著提升大语言模型（LLMs）的推理能力，特别是Qwen系列模型在数学基准测试上取得了SOTA（顶尖水平）的结果。但奇怪的是，一些研究声称，即使给予Qwen模型随机或错误的奖励信号，其性能也能提升，而这种现象在Llama等其他模型上却不成立。为了解释这个现象，论文提出了两个对立的假设：（1）数据污染：Qwen在海量网络数据预训练时，可能无意中“背诵”了评测基准（如MATH-500）的题目和答案。因此，看似随机的奖励实际上是触发了模型去回忆这些背过的答案。（2）基线数学能力强：Qwen本身数学基础就好，所以即使是噪声奖励也能帮助它。为了验证哪个假设是正确的，作者设计了明确的步骤：首先，通过“部分提示词补全”实验来检测模型是否对基准数据存在记忆；其次，构建一个全新的、无污染的合成数据集RandomCalculation 。最后，在这个干净的数据集上重新进行强化学习实验，观察不同奖励信号的真实效果。相关工作第一条线是关于在Qwen2.5上应用强化学习提升数学推理能力的研究。作者们列举了多种新兴的RL方法，如RLVR（基于可验证奖励的强化学习）、TTRL（测试时强化学习）以及各种利用熵或自洽性作为内在奖励信号的技术，并承认它们在Qwen上取得了显著成功。但同时，他们也引用了质疑这些成果普适性的研究，特别是那些指出随机奖励仅对Qwen有效而对Llama等模型无效的论文，从而引出“模型特定性”的问题。第二条线是预训练语料对推理能力的影响。作者指出，模型的数学能力很大程度上由其预训练数据决定，不同模型（如Qwen和Llama）对强化学习的反应不同，根源可能就在于其接触的训练数据存在差异。通过梳理这两方面工作，作者巧妙地将“RL在Qwen上的奇特效果”与“预训练数据的重要性”联系起来，为后续的数据污染调查铺平了道路。实验设置首先，在模型选择上，他们选取了参数量相当的Qwen2.5和Llama3.1系列模型进行对比，这遵循了控制变量的原则，旨在分离出模型本身的特性而非规模带来的差异。其次，核心的创新在于记忆能力评估的设计。他们没有采用常规的完整问题测试，而是提出了两个巧妙的指标：（1）部分提示词补全率：只给模型问题的前40%或60% ，看它能否准确生成剩余的部分。这通过ROUGE-L（衡量最长公共子序列）和EM（完全匹配）来量化，如果模型能高概率补全，则说明它很可能“见过”原题。（2）部分提示词答案准确率：在只给出部分提示的情况下，看模型能否直接给出正确答案。如果模型在问题不完整时仍能答对，这是数据污染的强烈信号。最后，在强化学习评估中，他们为自己创建的RandomCalculation数据集设计了一个连续奖励函数：$r = 1 - 0.5 \cdot min(|a-b|, 1) - 0.5 \cdot min(\frac{|a-b|}{|b|+\epsilon}, 1)$ 。这个函数同时考虑了预测值与真实值的绝对和相对误差，解决了新数据集中答案是高精度小数、传统0/1奖励过于稀疏难以训练的问题，确保了RL训练的稳定性和有效性。结果与分析复现问题：研究者首先在MATH-500数据集上成功复现了反常现象——随机和错误奖励确实提升了Qwen-Math-7B的性能，但对Llama却有负面影响。他们还敏锐地发现，Qwen基础模型的部分性能提升，仅仅是因为学习适应了评测时使用的对话模板，这揭示了评估中需要注意的陷阱。定位原因：通过前述的“部分提示词”测试，他们拿出了数据污染的“铁证”。结果显示，在MATH-500这类旧基准上，当只给出60%的问题时，Qwen2.5-Math-7B能以高达54.6%的概率精确补完剩余问题，并且依然能正确解答；而Llama的对应得分几乎为零。更具说服力的是，在一个模型发布后才创建的新基准LiveMathBench上，Qwen的补全率骤降至0%，与Llama表现一致。这强有力地证明了Qwen对旧基准存在记忆，所谓的“随机奖励提升性能”实际上是触发了模型的记忆提取机制。第三步，验证结论：为了彻底排除干扰，他们在自创的、无污染的RandomCalculation数据集上进行了最终实验。结果非常清晰：在这个干净的环境里，“魔法”消失了。无论是Qwen还是Llama，都只有在获得正确奖励信号时，性能才会稳定提升，而随机或错误奖励则完全无效。这直接证实了数据污染才是根本原因，而非模型本身有什么特异功能。

关于 OpenAI 的一些思考 -- Calvin French-Owen

《Reflections on OpenAI》 2025年7月15日我是三周前离开 OpenAI 的，而我加入公司是在 2024 年 5 月。我想分享我的思考，是因为外界对 OpenAI 的所作所为众说纷纭、传闻不断，但却鲜有人亲口讲述在那儿工作的真实文化氛围。 Nabeel Quereshi 写过一篇很棒的文章，叫《关于 Palantir 的一些思考》，文中他详细阐述了 Palantir 的特别之处。我也想趁着记忆犹新，为 OpenAI 写下同样的文字。你在这里不会看到任何商业机密，更多的是关于这个史上最引人入胜的组织之一，在当前这个极不寻常时期的一些个人感悟。首先声明：我决定离开并非出于任何个人恩怨——实际上，这个决定曾让我内心无比纠结。从一个创业公司的创始人，转变为一个三千人大机构的员工，这个过程并不容易。眼下，我渴望的是一个全新的开始。这份工作的魅力完全有可能再次将我吸引回来。毕竟，很难想象有什么工作能比构建通用人工智能 (AGI) 更具影响力了，而大语言模型 (LLM) 无疑是这十年来的顶尖技术创新。能够亲身见证一些技术进展，并参与 Codex 项目的发布，我深感幸运。当然，这些仅为个人观察，不代表公司立场。OpenAI 是个庞大的机构，本文只是我管中窥豹，所见一斑。文化了解 OpenAI，首先要知道它的发展速度有多惊人。我刚加入时，公司才 1000 多人。一年后，员工数已超过 3000，而按司龄算，我已经排进了前 30%。几乎所有领导层当前的工作，都和他们两三年前的职责大相径庭。当然，如此迅猛的扩张之下，各种问题都会暴露出来：公司层面的沟通方式、汇报结构、产品交付流程、人员管理与组织、招聘过程等等。不同团队的文化也大相径庭：有些团队始终在全力冲刺，有些则需要时刻盯着大型计算任务，还有一些则保持着更为稳健的节奏。在 OpenAI 没有所谓的单一体验，研究、应用和市场（GTM）团队的运作周期和视角也截然不同。 OpenAI 有一个特别之处：所有事情——我是说所有事情——都在 Slack 上进行。这里没有电子邮件。我在那里的全部时间里，大概总共只收到过 10 封邮件。如果你不善于整理信息，会觉得这种工作方式极易让人分心。但如果你能精心管理自己的频道和通知，它还是相当高效的。 OpenAI 的文化是高度自下而上的，在研究领域尤其如此。我刚加入时，曾询问下一季度的路线图。得到的答复是：“我们没有那东西”（不过现在有了）。好的想法可以来自任何地方，而且事先往往很难判断哪个想法会最有成效。这里没有宏大的“总体规划”，所谓的进展，是在新研究不断结出硕果的过程中，一步步探索出来的。正是得益于这种自下而上的文化，OpenAI 也非常任人唯贤。长久以来，公司领导者的晋升，主要看他们是否能提出好想法并将其付诸实践。许多能力超群的领导者，其实并不擅长在全员大会上演讲或玩弄办公室政治。但在 OpenAI，这些能力远不如在其他公司那么重要。最终，最好的想法总能脱颖而出。这里有一种强烈的行动偏好（即“先做再说”）。不同团队（即使业务不相关）不约而同地想到一块儿去，是常有的事。我最初就参与了一个与 ChatGPT Connectors 类似的内部并行项目。在我们决定正式推出 Codex 之前，公司内部至少同时存在三到四个不同的原型。这些项目通常由少数几个人在没有申请许可的情况下自发启动。一旦项目显现出潜力，团队就会迅速围绕它们组建起来。 Andrey（Codex 项目负责人）曾对我说，你应该把每个研究员都看作是独立的“迷你 CEO”。他们有强烈的自主性，喜欢专注于自己的项目，看最终能做出什么。这里有一个推论——大部分研究课题，都是通过用一个极具吸引力的技术难题去“钓”（nerd-sniping）一个研究员来解决的。如果一件事被认为是无聊或“已解决”的，那它很可能就没人去做了。优秀的研究经理影响力巨大，同时也极其稀缺。最顶尖的经理能将许多不同研究方向的成果串联起来，整合成更大规模的模型训练。优秀的 PM（产品经理）也是如此（在此特别感谢 ae）。我合作过的 ChatGPT 团队的 EM（工程经理）们（Akshay、Rizzo、Sulman）是我见过的最沉着冷静的“客户”。你真的会觉得，他们在这个位置上已经见过了各种大风大浪。他们中的大多数人管理风格都比较放手，但他们会招募优秀的人才，并努力为这些人创造成功所需的一切条件。 ...

斯坦福最新研究：AI幻觉不是玄学，是算力有上限！

《Hallucination Stations On Some Basic Limitations of Transformer-Based Language Models》大语言模型（LLM）存在“幻觉”现象，即生成虚假或无意义的信息。作者从计算复杂性的新颖角度来探讨这一局限性。随着LLM越来越多地被用于构建能自主执行任务的“智能体”（Agentic AI），理解其能力边界变得至关重要。作者提出，无论是执行计算任务还是验证任务的准确性，只要任务的复杂度超过一个特定阈值，LLM就必然会失败。 LLM的计算复杂性及其影响任何计算任务的解决都无法快于其固有的计算复杂度。作者指出，LLM生成单个词元（token）的核心操作，其计算复杂度为 $O(N^{2}.d)$，其中 $N$ 是输入序列的长度，$d$ 是模型的维度。这意味着LLM处理任何任务所能执行的计算步骤有一个明确的上限。因此，如果一个任务本身所需的计算步骤从根本上就多于这个上限（例如，复杂度为 $O(n^{3})$ 或指数级的任务），那么LLM在理论上就不可能正确完成这个任务。这个论证为我们提供了一个关键的评判标准：通过比较任务的内在复杂度与LLM的计算能力上限，我们可以预判LLM在处理该任务时是否会“碰壁”，从而产生幻觉。示例1：词元组合这个例子非常直观地展示了上述理论。作者提出了一个任务：“给定一个包含n个词元的集合，列出所有长度为k的字符串”。要完成这个任务，需要进行的计算量是 $O(n^{k})$，这是一个指数级的增长。当n和k的值增大时，这个数值会轻易地超过LLM的计算能力上限 $O(N^{2}.d)$ 。LLM也许能根据提示生成一些看起来合理的序列，但它并不是在真正地执行指数级的枚举计算，而只是在根据概率预测下一个最可能的词元。这启发我们，即使LLM的回答在表面上看起来正确，它也可能没有遵循任务要求的计算逻辑，尤其是在面对需要穷举所有可能性的组合问题时，其结果很可能是不可靠的。示例2：矩阵乘法矩阵乘法是另一个经典的计算问题，其标准算法的计算复杂度是 $O(n^{3})$（或更精确地说是 $O(m \cdot n \cdot p)$）。作者指出，当矩阵的维度超过LLM的词汇量规模时，LLM将无法正确执行乘法计算。这个例子进一步巩固了核心论点，并将其扩展到更多在现实世界中常见的、具有高阶多项式复杂度的计算任务，如寻找最短路径的Floyd-Warshall算法、某些数据库操作以及计算流体力学等。这给我们的启发是，在将LLM应用于需要精确数值计算，特别是涉及大规模矩阵或网络问题的科学和工程领域时，必须极其谨慎，因为这些任务的复杂度往往超出了LLM的能力范围。示例3：智能体AI 本节将前面的讨论扩展到当前热门的智能体AI领域。智能体AI是指利用LLM自主决策和执行任务的系统，应用场景包括金融交易、预订服务乃至工业控制。作者论证说，如果一个任务本身的计算复杂度就超过了 $O(N^{2}.d)$，那么无论是直接让LLM执行，还是将其包装成一个智能体来执行，结果都是一样的：任务无法被正确完成。更有启发性的是，作者进一步探讨了用一个智能体（$A_{2}$）去验证另一个智能体（$A_{1}$）的任务结果是否可行。结论是不可行的，因为在许多情况下，验证一个解的正确性（尤其是最优解）需要同等甚至更高的计算复杂度。例如，验证一个旅行商问题（TSP）的解是否为最短路径，需要对比所有可能的路径，这是一个阶乘级别的计算量（$\frac{(n-1)!}{2}$），远远超过LLM的能力。这警示我们，试图构建一个“监督者”LLM来检查“工作者”LLM的复杂计算结果，这条路在理论上是走不通的，我们不能依赖LLM来自我纠错或相互验证。定理1及其证明给定一个长度为N的提示，其中包含一个计算复杂度为 $O(n^{3})$ 或更高的任务（其中$n...

Karpathy：强化学习不是最终答案，那下一个风口是？

扩大强化学习的规模是时下的一大热点，我昨天刚和朋友聊过这个话题。我相当肯定，RL 会持续带来更多中期收益，但我也并不认为它就是最终的解决方案。 RL 的基本逻辑是：“嘿，这次做得不错（/很糟），那么在未来，我就稍微增加（/减少）我所采取的每一个行动的概率”。你从验证器函数中能获得比显式监督强大得多的杠杆效应，这非常棒。但首先，从渐进的角度看，这件事就有点可疑了——一旦任务的交互时长增加到几分钟甚至几小时，你真的要费那么大劲，只为了在最终学习到一个单一的标量结果，并用它来直接调整梯度权重吗？其次，除了渐进性问题，对于大多数智能任务而言，这感觉上并不像是人类的学习改进机制。在每一次推演后，我们通过一个复盘/反思阶段——“哪些地方做得好？哪些地方不太好？下次我该尝试什么？”——能提取出远为丰富的监督信息。并且，来自这个阶段的经验教训是明确的，就像一条可以被添加到未来系统提示词中的新指令，并可以选择性地在之后（有点像睡眠）被蒸馏为模型的权重（/直觉）。在英语中，我们称某件事通过这个过程变成了“第二天性”（second nature），而我们目前正缺少这样的学习范式。ChatGPT 中新的“记忆”功能或许就是这种范式的一个雏形，尽管它目前只用于个性化定制，而非解决问题。值得注意的是，在雅达利游戏的 RL 等场景中，并不存在与之对等的机制，因为那些领域里没有大语言模型（LLM），也没有上下文学习（in-context learning）。示例算法：给定一个任务，先进行几次推演（rollout），然后将所有推演过程（包括每一次的奖励）都塞进一个上下文窗口，再用一个元提示词（meta-prompt）来复盘/反思哪些地方做得好或不好，从而提炼出一条字符串形式的“经验教训”，并将其添加到系统提示词中（或者更通用地说，更新当前的经验教训数据库）。这个想法还有许多细节有待填补，有许多可行的调整，前景并不明朗。经验教训的示例：我们知道，由于 Token 化处理，大语言模型不太容易看清单词中的字母，也不太容易在残差流（residual stream）中进行计数，这导致了著名的难题——识别“strawberry”中的‘r’。Claude 的系统提示词里打了一个“快速补丁”，即添加了这样一条指令：“如果用户要求你计数字母，请先将字母用逗号隔开，每数一个就给一个显式计数器加一，并以此方式完成任务”。这条字符串就是“经验教训”，它明确地指导了模型该如何完成计数任务。但问题在于，这样的经验教训如何能从 AI 智能体的实践中自发涌现，而不是由工程师硬编码进去？它该如何被泛化？以及如何随着时间推移对这些经验教训进行蒸馏，以避免上下文窗口被无限撑大？总而言之：RL 将会带来更多进步，因为一个优秀的 RL 系统能起到更强的杠杆作用，更信奉“惨痛教训”（The Bitter Lesson）的理念，并且优于监督微调（SFT）。但这感觉并非故事的全部，尤其是当推演的长度还在不断增加时。在这之后，还有更多的 S 型增长曲线等待我们去发现，这些曲线可能专属于大语言模型，在游戏或机器人这类环境中没有先例，而这，正激动人心。

百度：多智能体AI搜索范式

《Towards AI Search Paradigm》本文提出了一个“AI搜索范式”，区别于传统搜索引擎和现有检索增强生成（RAG）系统的工作模式。传统的搜索系统像一条直线流水线，按部就班地检索、排序、生成答案，难以处理需要多步骤推理的复杂问题。这篇论文提出的新范式则像一个动态协作的专家团队，由四个核心的LLM（大语言模型）智能体组成：Master（大师）、Planner（规划师）、Executor（执行器）和Writer（作家）。Master负责分析用户问题的复杂性并组建最合适的智能体团队；Planner负责将复杂问题分解成一个可执行的计划图；Executor负责调用各种工具（如搜索、计算）来完成具体的子任务；Writer则负责综合所有结果，生成一个全面、连贯的答案。这种架构的精髓在于其动态性和协作性，能够像人一样思考、规划并解决问题，而不是机械地匹配和生成。系统概述通过一个具体的例子“汉武帝和凯撒谁更年长，年长多少岁？”生动地展示了新范式的工作流程，并与传统RAG系统进行了对比，其启发性在于揭示了“规划”在信息处理中的重要性。该系统会根据问题的复杂程度，选择三种不同的团队配置：对于“汉武帝叫什么名字”这类简单问题，采用**“作家-唯一（Writer-Only）”配置，直接生成答案；对于“今天北京天气适合出门吗”这类需要外部信息但无需复杂推理的问题，采用“执行器-包含（Executor-Inclusive）”配置，由执行器调用天气工具后，作家再整合信息；而对于汉武帝与凯撒年龄比较的复杂问题，则启动最高级的“规划师-增强（Planner-Enhanced）”**配置。在这个模式下，Master首先识别出问题的复杂性，然后委派Planner。 Planner会将问题分解为三个子任务：1. 搜索汉武帝的生卒年份；2. 搜索凯撒的生卒年份；3. 计算年龄差。这个过程被构建成一个有向无环图（DAG），清晰地表达了任务间的依赖关系。随后，Executor按图索骥，调用搜索和计算工具完成任务，最后由Writer综合信息，生成最终答案。这个流程与传统RAG系统一次性检索或简单的“思考-行动”循环相比，展现了更强的逻辑性、鲁棒性和解决复杂问题的能力。任务规划师任务规划师是整个系统的大脑，本章详细阐述了它如何解决“规划什么”和“用什么规划”的核心问题。首先，为了解决不同工具API接口标准不一的问题，系统引入了模型-上下文协议（MCP），这是一个统一的、中立的工具接口标准，让所有工具都能被AI无缝理解和调用。其次，面对海量工具，Planner并非全部加载，而是引入了动态能力边界（Dynamic Capability Boundary）的概念。具体做法是：先通过一个名为DRAFT的自动化框架，通过“经验收集-经验学习-文档重写”的循环，迭代优化工具的API文档，使其对LLM更友好；然后，利用k-means++算法对工具进行功能聚类，形成“工具包”以备不时之需（如同一个工具坏了，可以从同类工具包中找替代品）；最后，通过一个名为COLT的先进检索方法，该方法不仅看重查询与工具的语义相似性，更通过图学习捕捉工具间的“协作关系”（例如，解决一个复杂问题需要计算器、汇率查询、股价查询三个工具协同工作），从而为当前任务检索出一个功能完备的工具集。在拥有了合适的工具后，Planner会利用思维链和结构化草图提示策略，将用户的复杂查询生成一个基于DAG（有向无环图）的全局任务计划。这个计划是机器可读、可验证的，并且在执行过程中，Master会持续监控，一旦发现执行失败或结果不完整，便会指导Planner进行反思和重新规划（Re-Action）。最后，为了让Planner变得更聪明，系统还采用强化学习（GRPO算法）对其进行优化，其奖励函数综合考虑了最终答案的正确性、用户反馈、输出格式和中间步骤的执行成功率，通过一个全面的奖励信号$\mathcal{R}_{All}=\mathcal{R}_{Ansuver}+\mathcal{R}_{Feedback}+\mathcal{R}_{Format}+\mathcal{R}_{Execution}$来指导Planner学习更优的规划策略。任务执行器 (Task Executor) 它将传统搜索中“服务于人”的排序目标，转变为“服务于LLM”的召回目标。也就是说，执行器的首要任务不再是给用户提供一个最佳的点击链接列表，而是为后续的Writer（作家）智能体提供一套全面、高质量、让LLM能“读懂”并用于生成答案的参考文档。为了实现LLM偏好对齐（LLM Preference Alignment），执行器采取了四大关键措施：1. LLM标注：利用RankGPT（通过滑动窗口处理长列表）和TourRank（模拟体育赛事中的“锦标赛”机制）等高效的列表排序方法，让LLM来为文档排序，生成高质量的训练数据。2. 参考选择：通过分析LLM在生成答案时实际引用了哪些文档，反过来优化检索策略，从而在未来更倾向于检索这类高质量的文档。3. 生成奖励：这是一种更直接的对齐方式，通过强化学习，让排序器（Ranker）尝试不同的排序策略（如“时效性优先”或“权威性优先”），然后根据生成器（Generator）产出答案的好坏给予奖励或惩罚，直接以最终答案质量为导向来优化排序。4. LLM排序的蒸馏：将一个强大的、但推理成本高昂的“教师”LLM的复杂排序能力，通过RankNet损失函$\mathcal{L}=\sum_{i=1}^{n}\sum_{j=1}^{n}1_{r_{i}^{\prime}<\sigma_{j}^{\prime}}log(1+exp(s_{i}^{S}-s_{j}^{S}))$，“蒸馏”到一个轻量级的、适合在线部署的“学生”排序模型中。此外，为了应对AI搜索中海量子查询带来的性能压力，本章还提出了构建轻量级系统的思路，即用一个统一的LLM模型替代传统“倒排索引+向量检索+精排”的复杂多阶段架构，并利用LLM增强特征，让LLM直接从文本和图像中提取更深层次的语义特征（如权威性、时效性），从而极大地简化了系统并提升了效果。 **基于LLM的生成 ** 本章聚焦于Writer（作家）智能体，其核心启发在于如何确保最终生成的答案既鲁棒（不怕干扰）、又对齐（符合用户期望），并且能从用户行为中持续学习。关键做法如下：1. 构建鲁棒的RAG系统：为了应对检索器召回的文档中可能存在的噪声和错误，论文提出了一种名为ATM的对抗性训练方法。该方法引入一个“攻击者（Attacker）”智能体，专门负责制造假知识或打乱文档顺序来“攻击”输入，而“生成器（Generator）”，即Writer，则被训练来抵御这种攻击，从而增强其在嘈杂环境下的表现。这个过程通过一个创新的MITO损失函数$\mathcal{L}_{M\Gamma TO}=\mathcal{L}_{SFT}(a|q,D^{\prime})+\alpha\mathcal{L}_{KL}$进行迭代优化。2. RAG任务对齐：为了让生成结果符合用户的三大核心需求——信息丰富度、鲁棒性和引用质量，论文提出了PA-RAG技术。它通过一个两阶段过程实现对齐：首先，通过指令微调让模型具备基础的利用和引用文档的能力；然后，通过直接偏好优化（DPO）技术，按照“信息丰富度 -> 鲁棒性 -> 引用质量”这个由易到难的顺序，对专门构建的偏好数据进行分阶段、课程学习式的优化。3. 利用用户反馈进行优化：为了让模型持续进步，论文提出了RLHB（基于人类行为的强化学习）方法。它不再依赖昂贵的人工标注，而是直接将在线用户的真实行为（如点击、点赞、页面停留时间）转化为奖励信号，通过一个判别器和生成器的对抗训练机制，让Writer的生成策略直接对齐真实用户的偏好。4. 多智能体联合优化：为了解决RAG系统中各模块（规划器、执行器、作家）单独优化可能导致“局部最优，全局不优”的问题，论文提出了MMOA-RAG框架。该框架将整个RAG流程视为一个多智能体协作任务，使用多智能体PPO（MAPPO）算法进行端到端联合优化。所有智能体共享一个最终的全局奖励（如最终答案的F1分数），并结合各自的惩罚项（如规划器生成过多子问题、作家生成答案过长等），从而确保整个团队为了“生成高质量答案”这一共同目标协同工作。轻量化LLM生成如何为计算和存储密集型的LLM“瘦身”，以满足搜索应用对低延迟和低成本的苛刻要求。这些轻量化技术分为两大类：算法层面：核心是减少模型的计算量和参数量。具体方法包括局部注意力（Local Attention），即用计算成本更低的注意力机制（只关注部分上下文）来替代需要全局计算的原始注意力机制，并且这种替换通常只需少量微调甚至无需训练；以及模型剪枝（Model Pruning），特别是结构化剪枝，它直接移除整个神经元、注意力头甚至网络层，从而得到一个更小、更快的稠密模型，能直接在现有硬件上加速。基础设施层面：核心是优化推理流程和资源利用。具体方法包括专门针对搜索场景的输出长度缩减（通过提示、训练或压缩中间状态，让模型输出更简洁）、语义缓存（Semantic Caching）（缓存相似问题的答案，避免重复计算）；以及更通用的技术，如量化（Quantization）（将模型权重从高精度浮点数转为低精度整数或浮点数，减小内存占用并加速计算）、Prefill-Decode分离部署（将计算密集的提示处理阶段和内存带宽密集的生成阶段分开部署，优化资源分配），以及推测解码（Speculative Decoding）（用一个小的“草稿”模型快速生成多个候选词，然后由大模型一次性并行验证，从而加速生成过程）。评估本章的启发在于它不仅展示了新范式的优越性，还通过多维度、多场景的评估方式验证了其有效性。在人工评估中，系统将新范式（AI Search）与传统系统（Web Search）的结果进行“背靠背”比较，并使用归一化胜率（NWR） $NWR=\frac{\#Win-\#Lose}{\#Win+\#Tie+\#Lose}$ 这一量化指标。结果显示，对于简单问题，两者表现相当；但对于中等复杂和复杂问题，新范式的优势显著，尤其在复杂查询上实现了13%的相对提升，证明了其强大的推理和规划能力。在在线A/B测试中，系统在真实的百度搜索流量上进行了实验，结果显示新范式显著改善了多项核心用户体验指标，如查询改写率（CQR）降低1.45%（说明用户更容易一次性得到满意答案），日活跃用户数（DAU）提升1.85%，页面浏览量（PV）和用户停留时间（Dwell Time）也均有提升。最后，通过案例分析直观对比了新旧系统在处理简单查询“泰山多高？”和复杂查询“汉武帝和凯撒谁更年长？”时的表现差异，生动地展示了新范式在面对需要多步推理和工具调用的复杂问题时，如何通过规划、分解、执行、综合的流程得出正确答案，而传统系统则无能为力。结论本章总结了论文的核心贡献，其启发性在于清晰地勾勒出了下一代AI驱动搜索引擎的蓝图。论文提出的模块化、多智能体AI搜索范式，通过模拟人类的协作式问题解决流程，有效地克服了传统信息检索（IR）和现有RAG系统的局限性。该范式通过主动规划、动态工具整合和迭代推理，将搜索体验从被动的“文档列表提供者”提升为主动的“问题解决伙伴”，显著降低了用户的认知负担。这项工作不仅集成和优化了学术界与工业界的前沿技术，为未来的AI搜索研究和开发提供了一个结构清晰、内容详实的实践指南，也为如何实现更高效的智能体协作与无缝工具集成等未来研究方向指明了道路。

Andrej Karpathy：AI时代软件正在再次改变

《Andrej Karpathy： Software Is Changing (Again) 》 video: https://www.xiaohongshu.com/explore/68541c9c0000000015020db4?xsec_token=ABUBEZgdWSwwpyudD9_J0qqj3a1MFDXwBSKYa9oRS7qZw=&xsec_source=pc_user 这是一篇关于软件在AI时代演进的精彩演讲，演讲者从历史回顾到未来展望，深入探讨了大型语言模型（LLMs）如何改变软件开发的范式。第一部分：软件范式的演变 (Software Paradigm Shifts) 在软件发展历程中，我们正经历前所未有的剧变。从70年来相对稳定的“软件1.0”（即人类编写的传统代码），到机器学习时代数据驱动的“软件2.0”（神经网络的权重），再到如今由LLMs赋能的“软件3.0”（通过自然语言提示来编程LLMs），软件的定义和开发方式正在发生根本性变革。特别是软件3.0，它引入了一种全新的编程范式——使用日常英语进行编程，这使得任何人都有可能成为“程序员”。对于即将进入行业的学生来说，掌握这三种范式并能够根据任务需求灵活切换和融合，是极其重要的能力，因为每种范式都有其独特的优势和局限性。第二部分：LLMs的本质与生态系统 (The Nature and Ecosystem of LLMs) LLMs不仅是强大的计算工具，它们正逐渐展现出“公用事业”和“操作系统”的特性。从公用事业的角度看，LLM实验室投入巨大的资本来训练模型（类似电网建设），并通过API提供按量付费的服务（类似用电）。这要求LLMs具备低延迟、高可用性和一致的质量，并且能够像电力供应一样进行切换，甚至在模型“停摆”时，会造成全球范围内的“智能停电”。从操作系统的角度看，LLMs的复杂性、工具使用和多模态能力使其远超简单的商品。它们类似于1960年代的早期计算机操作系统，将LLM本身视为CPU，上下文窗口作为内存，并能够协调计算和记忆来解决问题。这种类比意味着我们正处于个人计算革命的前夜，LLMs将从云端集中式服务逐渐走向更多样化的部署，甚至可能出现“个人LLM”设备。然而，与历史不同的是，LLMs的普及速度极快，通过ChatGPT等应用瞬间触达亿万用户，这为我们提供了前所未有的机遇去编程这些新型计算机。第三部分：LLMs的心理学与局限性 (The Psychology and Limitations of LLMs) 将LLMs理解为“人类灵魂的随机模拟”有助于我们更好地利用它们。尽管LLMs拥有超人的知识和记忆能力（如同“雨人”般的记忆力），能够轻易记住大量信息，但它们也存在显著的认知缺陷。这些缺陷包括：频繁的“幻觉”和编造信息、自我认知模型不足、以及“锯齿状智能”（在某些领域超人，在另一些领域却犯下人类不会犯的低级错误）。此外，LLMs还存在“顺行性遗忘症”——它们不像人类同事那样能够持续学习和巩固知识，每次交互上下文窗口都会被“清空”，需要明确的编程来管理工作记忆。在安全性方面，LLMs易受提示注入攻击，并可能泄露数据。因此，与LLMs合作的关键在于：如何在利用它们超人能力的同时，巧妙地规避和克服它们的这些局限性。第四部分：利用LLMs的机遇：半自动化应用 (Opportunities with LLMs: Partial Autonomy Apps) LLMs带来了“半自动化应用”的巨大机遇，这类应用旨在将人类与AI的合作效率最大化。以代码编写为例，像Cursor这样的工具，提供了传统的人机交互界面，同时无缝集成LLM能力，允许人类以更大的块来操作。这类应用的关键特征包括：LLM对上下文的有效管理、协调LLM的多次调用、以及应用特定的图形用户界面（GUI）的重要性。GUI能够让用户直观地审计AI的工作，通过可视化差异（如代码的红绿变化）和简单的操作（如Command+Y接受，Command+N拒绝）来加速验证过程。此外，一个重要的概念是“自动化滑块”，允许用户根据任务复杂性调整AI的自主程度，从提供少量建议到全权代理。总而言之，未来的软件将普遍具备部分自动化能力，开发者需要思考如何让AI能够“看到”和“行动”如同人类，同时保持人类的监督和控制，确保AI的产出可审计、可控。第五部分：人机协作的策略与最佳实践 (Strategies and Best Practices for Human-AI Collaboration) 在与LLMs协作时，核心目标是最大限度地提升“生成-验证”循环的速度。实现这一目标的关键策略有两点：首先，通过GUI等可视化工具大幅加速人类的验证过程，因为视觉信息比纯文本更容易理解和处理，能更快地将信息传达给大脑。其次，必须学会“牵着AI的缰绳”，避免过度激进的AI代理。LLMs容易产生过大的、难以审计的输出（例如一次性生成1000行代码的diff），这反而会成为人类的瓶颈。因此，最佳实践是小步快跑、增量迭代，确保每一次修改都经过细致的审查。对于提示词的编写，越具体、越精确的提示，越能提高AI生成结果的准确性，从而减少验证失败的次数，加速整个开发流程。这种“牵着AI的缰绳”的理念同样适用于教育等领域，通过将课程内容结构化、可审计化，确保AI在教学过程中不偏离预设的教学大纲。第六部分：面向AI代理的软件构建 (Building Software for AI Agents) 随着AI代理成为数字信息的新的消费者和操纵者，我们需要重新思考如何构建软件。以往的软件主要面向人类用户（通过GUI）或传统计算机程序（通过API），现在则多了一个“类人”的计算机——AI代理。这意味着我们需要为LLMs设计更直接、更易于理解的接口。例如，在网站中增加llms.txt文件，直接用Markdown格式告诉LLM网站内容，这比让LLM解析复杂的HTML更高效、更不易出错。大量为人类编写的文档（包含图片、粗体、列表等）对LLM来说并不友好，因此将文档转换为Markdown格式，并替换“点击”等人类操作指令为LLM可执行的curl命令，能够极大地提升LLM访问和利用信息的效率。一些工具如git.ingest和Deep Wiki已经开始尝试将GitHub仓库内容或维基百科页面转换为LLM友好格式，这表明了未来软件基础设施将更多地考虑AI代理的需求。虽然LLMs未来可能具备点击网页等操作能力，但通过优化信息呈现方式，让LLMs更容易“阅读”和“理解”信息，仍然是提升效率的关键。总结 (Conclusion) 当前是进入软件行业一个非凡的时代，我们将见证并参与到软件的全面重写中。这些代码将由专业开发者和“字节码程序员”（通过自然语言与LLM交互的非专业人士）共同完成。LLMs正扮演着公用事业、工厂（Fab）和操作系统的多重角色，但其发展仍处于早期阶段，类似于1960年代的计算机操作系统。与它们合作，就像与有超能力但存在缺陷的“人工智能灵魂”共事。因此，在构建LLM应用时，我们需要设计能够实现“部分自动化”的产品，通过精心的GUI和UI/UX设计来加速人类的生成-验证循环，并确保AI始终在可控范围内。同时，软件基础设施也需要为AI代理进行优化，提供LLM友好的文档和数据访问方式。从“钢铁侠增强套装”到“钢铁侠代理人”的转变，代表着未来十年自动化程度的不断提升，这是一个令人兴奋且充满挑战的旅程，需要我们共同努力去构建。

Gemini 2.5 报告

《Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities》本报告介绍了Gemini 2.X模型家族，包括Gemini 2.5 Pro和Gemini 2.5 Flash，以及早期版本Gemini 2.0 Flash和Flash-Lite。这一代模型原生支持多模态，具备先进的思维推理、长上下文处理和工具使用能力，能够处理超过100万个token的文本、音频、图像、视频甚至整个代码库。Gemini 2.5 Pro是目前最强大的模型，在编码和推理基准测试中达到了SOTA（State-of-the-Art）性能，并擅长多模态理解，能够处理长达3小时的视频内容。Gemini 2.5 Flash则在计算和延迟要求较低的情况下提供出色的推理能力。Gemini 2.0 Flash和Flash-Lite则在高性价比和低延迟方面表现优异。这些模型共同覆盖了模型能力与成本的帕累托前沿，使用户能够探索复杂Agent问题解决的边界。模型架构 Gemini 2.5模型采用了稀疏混合专家（MoE）Transformer架构，原生支持文本、视觉和音频输入。MoE模型通过动态路由token到参数子集（专家）来激活部分模型参数，从而在计算和token服务成本上解耦了总模型容量。架构的改进显著提升了Gemini 2.5的性能。Gemini 2.5系列在提升大规模训练稳定性、信号传播和优化动态方面取得了重大进展，从而在预训练阶段就显著提升了性能。Gemini 2.5模型在处理长上下文查询方面也取得了进展，Gemini 2.5 Pro在处理长达1M token的输入序列上超越了Gemini 1.5 Pro。此外，Gemini 2.5在视觉处理方面的架构改进显著提升了图像和视频理解能力，包括能够处理3小时长的视频，并将演示视频转化为交互式编码应用。小型模型（Flash及以下）利用了蒸馏技术，通过近似k稀疏分布来降低教师模型下一代token预测分布的存储成本，从而在质量和降低服务成本之间取得了平衡。数据集 Gemini 2.0和2.5的预训练数据集是一个大规模、多样化的数据集合，涵盖了广泛的领域和模态，包括公开可用的网络文档、代码（各种编程语言）、图像、音频（包括语音和其他音频类型）和视频。Gemini 2.0的数据截止日期是2024年6月，Gemini 2.5是2025年1月。相较于Gemini 1.5的预训练数据集，2.0和2.5采用了新的方法来改进数据过滤和去重，以提高数据质量。后训练数据集与Gemini 1.5类似，包含经过精心收集和审查的指令调优数据，以及多模态数据、配对的指令和响应，此外还有人类偏好和工具使用数据。训练基础设施 Gemini 2.X模型家族是首个在TPUv5p架构上训练的模型，采用了跨多个数据中心的Google TPUv5p加速器上的同步数据并行训练。与Gemini 1.5相比，主要的软件预训练基础设施改进在于弹性和SDC（静默数据损坏）错误缓解。Slice-Granularity Elasticity（切片粒度弹性）允许系统在局部故障时自动以较少数量的TPU芯片“切片”继续训练，每次中断只损失几十秒的训练时间，而无需等待机器重新调度。Split-Phase SDC Detection（分阶段SDC检测）利用轻量级确定性重放立即重复任何可疑指标的步骤，并通过比较每个设备的中间校验和来定位数据损坏的根本原因，从而在几分钟内识别并排除有间歇性SDC的加速器，显著减少了调试停机时间和训练步骤回滚。这些技术的实现得益于Pathways系统单一控制器的设计，该设计允许所有加速器通过一个具有全局系统视图的Python程序进行协调。后训练 Gemini 1.5发布以来，后训练方法取得了显著进展，主要集中在监督微调（SFT）、奖励建模（RM）和强化学习（RL）阶段的数据质量。关键做法是利用模型本身辅助这些过程，实现更高效和精细的质量控制。此外，报告增加了RL的训练计算资源，实现了模型行为的更深层次探索和完善。这与对可验证奖励和基于模型的生成奖励的关注相结合，提供了更复杂和可扩展的反馈信号。RL流程的算法变化也提高了长时间训练的稳定性。这些进展使Gemini 2.5能够从更多样化和复杂的RL环境中学习，包括那些需要多步动作和工具使用的环境，从而实现了全面性能提升，Gemini 2.5 Flash和Pro在LMArena ELO分数上比Gemini 1.5对应模型提高了120多分，并在其他前沿基准测试中取得了显著进步。思维 (Thinking) 过去的Gemini模型在用户查询后立即生成答案，这限制了模型在推理问题上花费的推理时间（思维）。Gemini Thinking模型通过强化学习进行训练，在推理时利用额外的计算资源以获得更准确的答案。最终模型能够在回答问题或查询之前进行数万次前向传递的“思考”阶段。训练方案从最初的实验性思考模型Gemini 2.0 Flash Thinking（2024年12月发布）演变为Gemini 2.5 Thinking系列，后者在所有领域原生集成了思考能力，实现了全面的更强推理性能，并能随着推理时间的增加进一步提升性能。Gemini 2.5 Thinking模型将思维能力与原生多模态输入（图像、文本、视频、音频）和长上下文（1M+ token）等其他Gemini能力相结合。模型可以自行决定思考时长，用户也可以设置思考预算来平衡性能和成本。 ...

GRPO? DAPO? 我用CISPO！

MiniMax-M1 是全球首个开放权重的大规模混合注意力推理模型，它通过创新的架构设计和训练方法，旨在高效地扩展模型的测试时计算能力，以处理复杂任务。该模型的核心动力源于一个结合了混合专家（MoE）与Lightning注意力（Lightning Attention）机制的混合架构。M1 模型基于其前身 MiniMax-Text-01 开发而来，总参数量达到 4560 亿，但每个词元（token）仅激活 459 亿参数，从而实现了高效率。得益于其架构，M1 原生支持高达 100 万词元的超长上下文，并且计算成本极低，例如，在生成 10 万词元长度的内容时，其计算量仅为 DeepSeek R1 的 25% 。为了训练模型卓越的推理能力，团队采用了大规模强化学习（RL），并为此开发了一种名为 CISPO 的新颖 RL 算法。该算法通过裁剪重要性采样权重而非词元更新来稳定训练，表现优于其他竞争算法。这种高效的架构与算法相结合，使得 M1 的完整强化学习训练在 512 个 H800 GPU 上仅用三周便得以完成，成本约为 53.47 万美元。团队公开发布了两个版本，分别拥有 40K 和 80K 的“思考预算” ，在标准基准测试中，其表现与 DeepSeek-R1 和 Qwen3-235B 等顶尖开源模型相当或更优，尤其在复杂的软件工程、智能体工具使用和长上下文任务上展现出明显优势。为可扩展的强化学习做准备这一章的启发点在于它揭示了在进行高成本的强化学习（RL）之前，扎实的“地基”工作是多么重要，以及如何高效地打好这个地基。这个准备工作分为两个关键步骤。第一步是持续预训练 (Continual Pre-training)，目标是增强基础模型的内在推理能力。他们的做法是，在原有模型基础上，再用 7.5 万亿个精心筛选的、侧重于推理的词元进行训练。这里的关键操作是，他们优化了数据处理流程，特别提高了数学和代码类高质量数据的比例至 70%，并且严格避免使用合成数据，以保证数据质量和多样性。一个非常重要的实践经验是，为了训练超长文本（100 万词元），他们没有一步到位，而是采用分阶段逐步延长训练文本长度的策略（从 32K 开始），有效避免了训练过程中可能出现的梯度爆炸问题。第二步是监督微调 (Supervised Fine-Tuning, SFT)，目标是为模型注入特定的“思维模式”，即“思维链”（Chain-of-Thought）。他们的做法是，精心筛选了大量包含长篇思考过程的样本，覆盖数学、代码、问答等多个领域（其中数学和代码占 60%），让模型在强化学习开始前就“学会”如何进行有条理的思考，为后续更高效、更稳定的 RL 训练奠定了坚实的基础。 ...

Multiverse: 如何让大模型实现原生并行生成？

《Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation 》这篇论文的核心是提出了一种名为“Multiverse”的新型生成模型框架，旨在让大型语言模型（LLM）能够实现原生的并行生成。这个框架的灵感来源于一个关键发现：传统的自回归模型在生成长序列（如解题步骤）时，其输出内容在逻辑上已经隐含了可以并行的部分。Multiverse 模型将经典的 MapReduce 计算范式（一种分而治之的思想）内化到了模型结构中，通过三个阶段进行工作：首先是 Map（映射）阶段，模型自主地分析任务并将其分解为多个子任务；其次是 Process（处理）阶段，模型并行地执行这些独立的子任务；最后是 Reduce（规约）阶段，模型将所有并行分支的结果无损地合并，并生成最终结论。为了实现这一框架，研究者们进行了一套完整的“协同设计”，涵盖了数据、算法和系统三个层面，并成功地将一个强大的自回归模型（Qwen-2.5-32B）用极低的成本（1000个样本，3小时训练）转化为了 Multiverse 模型。最终结果表明，该模型在保持与顶尖自回归模型相当的推理性能的同时，由于其并行生成能力，获得了最高可达2倍的推理速度提升。我们能否设计一个模型，让它能“智能地”决定何时拆分任务进行并行处理，何时合并结果，并且整个过程都在模型内部无缝完成？这为 Multiverse 框架的提出奠定了基础，即让模型学会自己做“项目管理”，从单线程工作者进化为高效的多任务团队。长链思维（CoT）生成：逻辑上是顺序还是并行？深入分析了现有顶尖模型生成的长篇推理数据。他们发现，超过98%的推理案例中都存在可以并行的部分。他们将这些并行模式分为两类：集体性分支（Collective Branches），比如分析一个问题的多个方面，所有方面的结果最后都要用到；以及选择性分支（Selective Branches），比如探索多种解题思路，最后只选择最有效的一种。更关键的一步是，他们通过“提示测试”（Prompting Test）和“探针测试”（Probing Test）证明，尽管这些模型能无意识地生成含并列逻辑的内容，但它们实际上无法主动地、显式地去规划和识别这种并行结构。这就像一个人虽然可以说出包含并列关系的话，但他自己并没有意识到“并列”这个语法结构。这个发现非常重要，它说明了现有模型“知其然，而不知其所以然”，从而论证了创造一个能主动理解和运用并行思维的新模型框架的必要性。为原生并行生成模型设计 Multiverse Multiverse 框架的理论核心，最具创造性的做法是将 MapReduce 思想和一套特殊的“控制标签”结合起来，从而在模型层面实现了对生成流程的精确控制。其核心流程分为三步： 1. Map（映射）阶段，模型首先生成一个任务分解计划，就像一个项目经理写下任务大纲； 2. Process（处理）阶段，模型根据计划，在多个独立的“路径”（Path）中并行生成内容，每个路径处理一个子任务； 3. Reduce（规约）阶段，当所有路径都完成后，模型将所有路径的输出信息整合起来，进行总结和最终推理。为了让模型和推理系统能够“听懂”这个流程，作者设计了一套类似XML的控制标签，例如 <Parallel> 标志着并行块的开始，<Goal> 和 <Outline> 定义了总目标和各个子任务，<Path> 包裹着每个并行的处理过程，而 <Conclusion> 则触发最终的合并与总结。这种设计非常巧妙，它把复杂的并行逻辑控制问题，转化成了一个模型生成特定“指令文本”的问题，让模型能够自我指导其生成过程，实现了“代码即流程”。构建一个真实世界中的 Multiverse 模型其核心思想是“数据、算法、系统”三位一体的协同设计，每一步都充满了巧思。 5.1 数据管理 (Data Curation)：最大的难题是“从0到1”——没有现成的并行化训练数据。作者的解决方案“Multiverse Curator”是一个极具启发性的自动化数据处理流水线。它使用一个强大的LLM（Gemini 2.5 Pro）作为“数据标注员”，通过五步提示工程，将现有的海量、高质量的“顺序”推理数据，自动转换为带有并行结构标签的 Multiverse 数据格式。这五个步骤包括：解析为树状摘要、识别并行节点、用控制标签重构、填回原始内容、添加Map/Reduce阶段并重写路径以保证独立性。这个方法极大地降低了数据准备的成本，为训练新架构模型提供了一条捷径。 ...

“交错推理”减少首token耗时

《Interleaved Reasoning for Large Language Models via Reinforcement Learning》这篇论文的核心思想是解决大型语言模型在进行长链式思考（CoT）时响应速度慢（即“首个token时间”TTFT过长）和容易中途出错的问题。研究者提出了一种名为“交错推理”（Interleaved Reasoning）的全新训练模式，通过强化学习（RL）来引导模型在“思考”和“回答”之间来回切换。这种方法不仅能将用户的等待时间（TTFT）平均减少超过80%，还能将解题的正确率（Pass@1）提升高达19.3%。最关键的是，这种方法不依赖任何外部工具，并且在仅用问答和逻辑推理数据集训练后，模型能在数学（MATH）、物理（GPQA）等它从未见过的复杂推理任务上表现出色，展现了强大的泛化能力。 “先思考后回答”（think-answer）模式存在两个主要弊端。首先，模型需要生成一长串完整的思考过程后才能给出第一个字的答案，这在对话式应用中会造成明显的延迟，影响用户体验。其次，由于奖励信号只在最终答案产生后才出现，如果模型在思考的早期步骤就犯了错，这个错误会一直延续下去，导致最终结果不准确，造成所谓的“过度思考”或“思考不足”。作者们从人类交谈中获得启发，我们通常会给出阶段性的反馈来表示理解。因此，他们提出“交错推理”，让模型把复杂问题分解成小步骤，每完成一步就给出一个小结（sub-answer），这样不仅能立即给用户反馈，还能利用这些中间答案作为更密集的监督信号来指导后续的推理，从而让训练更有效。目前，利用强化学习提升模型推理能力主要依赖两种奖励模型：结果奖励模型（ORM）只看最终答案对错，过程奖励模型（PRM）则对思考过程中的每一步进行打分。PRM虽然能提供更密集的反馈，但往往需要大量人工标注或训练一个额外的复杂模型，实施起来很困难。本文提出的方法巧妙地结合了两者的优点：它像PRM一样关注中间步骤，但实现上却像ORM一样简单，仅使用基于规则的奖励来给正确的中间答案“记功”，而无需一个专门的奖励模型。这与其他工作要么依赖外部工具（如搜索引擎），要么只关注缩短推理长度不同，本文更侧重于激发和利用模型自身生成可验证的中间答案的能力。为交错推理训练大语言模型如何训练模型学会“交错推理”。其关键步骤如下：首先，他们定义了一种新的交互模式，通过在<think>和<answer>这两个特殊标签中引导模型进行思考和回答，形成一种<think>...<answer>...<think>...<answer>...的交错生成格式。其次，他们将这个过程构建为一个强化学习问题，其目标函数为：即在最大化奖励的同时，通过KL散度惩罚项防止模型偏离原始模型太远。最关键的创新在于其奖励设计，特别是“条件性中间准确率奖励”。研究发现，如果一开始就对不成熟的中间步骤给予奖励，模型可能会为了局部正确而牺牲最终的全局正确性。因此，他们设计了一个巧妙的条件机制：只有当模型的最终答案正确、输出格式合规、且在当前批次的学习中表现出进步时，才会对正确的中间步骤给予额外奖励。其奖励函数可以表示为：其中中间奖励$r_{intermcdiate}$是有条件触发的。这种“扶优扶强”的策略确保了模型首先学会走对路，然后再学习如何把路走得更漂亮、更高效。主要实验实验部分验证了“交错推理”方法的有效性。研究者们使用了15亿和70亿参数的Qwen2.5模型，并在两类数据集上进行了测试：一类是用于训练的“域内”数据集（如逻辑题K&K和多跳问答Musique），另一类是模型从未见过的“域外”数据集（如GPQA、MMLU和MATH）来检验其泛化能力。他们将自己的方法（Interleave + IR，即带中间奖励的交错推理）与多种基线方法（如直接回答、标准链式思考CoT、以及标准的“先思考后回答”式强化学习）进行对比。结果非常显著：与“先思考后回答”的基线相比，他们的方法在所有数据集上都实现了超过80%的TTFT（首个token时间）降低，这意味着用户能快大约五倍得到有用的信息。同时，Pass@1准确率也得到了显著提升，尤其是在15亿参数的模型上相对提升了19.3%。这证明了“交错推理”不仅大幅提升了模型的响应速度和互动性，还实实在在地增强了其推理的准确性。