大模型 | 一只小茄墩

Qwen存在严重数据污染，基于Qwen的RL论文可靠性存疑

《Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination》本文对为什么像Qwen这样的大语言模型在使用随机甚至错误的奖励信号进行强化学习后，在数学推理任务上表现反而更好——提出了一个基于“数据污染”的合理解释。研究者没有轻易接受“模型能力强”或“强化学习有奇效”的表面结论，而是设计了一系列实验来验证他们的怀疑。关键做法是，他们发现Qwen模型家族在MATH-500等著名数学基准测试上表现出的惊人性能，很可能是因为它在预训练时接触过这些基准测试的题目和答案。为了证明这一点，他们创建了一个全新的、完全合成的、保证无泄漏的数学计算数据集RandomCalculation。在这个干净的数据集上，先前观察到的“奇迹”消失了：只有准确的奖励信号才能稳定提升模型的推理能力，而错误或随机的奖励则毫无助益。这一过程为我们揭示了在评估大模型能力时，必须警惕和排除数据污染问题，否则可能会得出不可靠甚至错误的结论。研究者观察到，强化学习（RL）技术能显著提升大语言模型（LLMs）的推理能力，特别是Qwen系列模型在数学基准测试上取得了SOTA（顶尖水平）的结果。但奇怪的是，一些研究声称，即使给予Qwen模型随机或错误的奖励信号，其性能也能提升，而这种现象在Llama等其他模型上却不成立。为了解释这个现象，论文提出了两个对立的假设：（1）数据污染：Qwen在海量网络数据预训练时，可能无意中“背诵”了评测基准（如MATH-500）的题目和答案。因此，看似随机的奖励实际上是触发了模型去回忆这些背过的答案。（2）基线数学能力强：Qwen本身数学基础就好，所以即使是噪声奖励也能帮助它。为了验证哪个假设是正确的，作者设计了明确的步骤：首先，通过“部分提示词补全”实验来检测模型是否对基准数据存在记忆；其次，构建一个全新的、无污染的合成数据集RandomCalculation 。最后，在这个干净的数据集上重新进行强化学习实验，观察不同奖励信号的真实效果。相关工作第一条线是关于在Qwen2.5上应用强化学习提升数学推理能力的研究。作者们列举了多种新兴的RL方法，如RLVR（基于可验证奖励的强化学习）、TTRL（测试时强化学习）以及各种利用熵或自洽性作为内在奖励信号的技术，并承认它们在Qwen上取得了显著成功。但同时，他们也引用了质疑这些成果普适性的研究，特别是那些指出随机奖励仅对Qwen有效而对Llama等模型无效的论文，从而引出“模型特定性”的问题。第二条线是预训练语料对推理能力的影响。作者指出，模型的数学能力很大程度上由其预训练数据决定，不同模型（如Qwen和Llama）对强化学习的反应不同，根源可能就在于其接触的训练数据存在差异。通过梳理这两方面工作，作者巧妙地将“RL在Qwen上的奇特效果”与“预训练数据的重要性”联系起来，为后续的数据污染调查铺平了道路。实验设置首先，在模型选择上，他们选取了参数量相当的Qwen2.5和Llama3.1系列模型进行对比，这遵循了控制变量的原则，旨在分离出模型本身的特性而非规模带来的差异。其次，核心的创新在于记忆能力评估的设计。他们没有采用常规的完整问题测试，而是提出了两个巧妙的指标：（1）部分提示词补全率：只给模型问题的前40%或60% ，看它能否准确生成剩余的部分。这通过ROUGE-L（衡量最长公共子序列）和EM（完全匹配）来量化，如果模型能高概率补全，则说明它很可能“见过”原题。（2）部分提示词答案准确率：在只给出部分提示的情况下，看模型能否直接给出正确答案。如果模型在问题不完整时仍能答对，这是数据污染的强烈信号。最后，在强化学习评估中，他们为自己创建的RandomCalculation数据集设计了一个连续奖励函数：$r = 1 - 0.5 \cdot min(|a-b|, 1) - 0.5 \cdot min(\frac{|a-b|}{|b|+\epsilon}, 1)$ 。这个函数同时考虑了预测值与真实值的绝对和相对误差，解决了新数据集中答案是高精度小数、传统0/1奖励过于稀疏难以训练的问题，确保了RL训练的稳定性和有效性。结果与分析复现问题：研究者首先在MATH-500数据集上成功复现了反常现象——随机和错误奖励确实提升了Qwen-Math-7B的性能，但对Llama却有负面影响。他们还敏锐地发现，Qwen基础模型的部分性能提升，仅仅是因为学习适应了评测时使用的对话模板，这揭示了评估中需要注意的陷阱。定位原因：通过前述的“部分提示词”测试，他们拿出了数据污染的“铁证”。结果显示，在MATH-500这类旧基准上，当只给出60%的问题时，Qwen2.5-Math-7B能以高达54.6%的概率精确补完剩余问题，并且依然能正确解答；而Llama的对应得分几乎为零。更具说服力的是，在一个模型发布后才创建的新基准LiveMathBench上，Qwen的补全率骤降至0%，与Llama表现一致。这强有力地证明了Qwen对旧基准存在记忆，所谓的“随机奖励提升性能”实际上是触发了模型的记忆提取机制。第三步，验证结论：为了彻底排除干扰，他们在自创的、无污染的RandomCalculation数据集上进行了最终实验。结果非常清晰：在这个干净的环境里，“魔法”消失了。无论是Qwen还是Llama，都只有在获得正确奖励信号时，性能才会稳定提升，而随机或错误奖励则完全无效。这直接证实了数据污染才是根本原因，而非模型本身有什么特异功能。

关于 OpenAI 的一些思考 -- Calvin French-Owen

《Reflections on OpenAI》 2025年7月15日我是三周前离开 OpenAI 的，而我加入公司是在 2024 年 5 月。我想分享我的思考，是因为外界对 OpenAI 的所作所为众说纷纭、传闻不断，但却鲜有人亲口讲述在那儿工作的真实文化氛围。 Nabeel Quereshi 写过一篇很棒的文章，叫《关于 Palantir 的一些思考》，文中他详细阐述了 Palantir 的特别之处。我也想趁着记忆犹新，为 OpenAI 写下同样的文字。你在这里不会看到任何商业机密，更多的是关于这个史上最引人入胜的组织之一，在当前这个极不寻常时期的一些个人感悟。首先声明：我决定离开并非出于任何个人恩怨——实际上，这个决定曾让我内心无比纠结。从一个创业公司的创始人，转变为一个三千人大机构的员工，这个过程并不容易。眼下，我渴望的是一个全新的开始。这份工作的魅力完全有可能再次将我吸引回来。毕竟，很难想象有什么工作能比构建通用人工智能 (AGI) 更具影响力了，而大语言模型 (LLM) 无疑是这十年来的顶尖技术创新。能够亲身见证一些技术进展，并参与 Codex 项目的发布，我深感幸运。当然，这些仅为个人观察，不代表公司立场。OpenAI 是个庞大的机构，本文只是我管中窥豹，所见一斑。文化了解 OpenAI，首先要知道它的发展速度有多惊人。我刚加入时，公司才 1000 多人。一年后，员工数已超过 3000，而按司龄算，我已经排进了前 30%。几乎所有领导层当前的工作，都和他们两三年前的职责大相径庭。当然，如此迅猛的扩张之下，各种问题都会暴露出来：公司层面的沟通方式、汇报结构、产品交付流程、人员管理与组织、招聘过程等等。不同团队的文化也大相径庭：有些团队始终在全力冲刺，有些则需要时刻盯着大型计算任务，还有一些则保持着更为稳健的节奏。在 OpenAI 没有所谓的单一体验，研究、应用和市场（GTM）团队的运作周期和视角也截然不同。 OpenAI 有一个特别之处：所有事情——我是说所有事情——都在 Slack 上进行。这里没有电子邮件。我在那里的全部时间里，大概总共只收到过 10 封邮件。如果你不善于整理信息，会觉得这种工作方式极易让人分心。但如果你能精心管理自己的频道和通知，它还是相当高效的。 OpenAI 的文化是高度自下而上的，在研究领域尤其如此。我刚加入时，曾询问下一季度的路线图。得到的答复是：“我们没有那东西”（不过现在有了）。好的想法可以来自任何地方，而且事先往往很难判断哪个想法会最有成效。这里没有宏大的“总体规划”，所谓的进展，是在新研究不断结出硕果的过程中，一步步探索出来的。正是得益于这种自下而上的文化，OpenAI 也非常任人唯贤。长久以来，公司领导者的晋升，主要看他们是否能提出好想法并将其付诸实践。许多能力超群的领导者，其实并不擅长在全员大会上演讲或玩弄办公室政治。但在 OpenAI，这些能力远不如在其他公司那么重要。最终，最好的想法总能脱颖而出。这里有一种强烈的行动偏好（即“先做再说”）。不同团队（即使业务不相关）不约而同地想到一块儿去，是常有的事。我最初就参与了一个与 ChatGPT Connectors 类似的内部并行项目。在我们决定正式推出 Codex 之前，公司内部至少同时存在三到四个不同的原型。这些项目通常由少数几个人在没有申请许可的情况下自发启动。一旦项目显现出潜力，团队就会迅速围绕它们组建起来。 Andrey（Codex 项目负责人）曾对我说，你应该把每个研究员都看作是独立的“迷你 CEO”。他们有强烈的自主性，喜欢专注于自己的项目，看最终能做出什么。这里有一个推论——大部分研究课题，都是通过用一个极具吸引力的技术难题去“钓”（nerd-sniping）一个研究员来解决的。如果一件事被认为是无聊或“已解决”的，那它很可能就没人去做了。优秀的研究经理影响力巨大，同时也极其稀缺。最顶尖的经理能将许多不同研究方向的成果串联起来，整合成更大规模的模型训练。优秀的 PM（产品经理）也是如此（在此特别感谢 ae）。我合作过的 ChatGPT 团队的 EM（工程经理）们（Akshay、Rizzo、Sulman）是我见过的最沉着冷静的“客户”。你真的会觉得，他们在这个位置上已经见过了各种大风大浪。他们中的大多数人管理风格都比较放手，但他们会招募优秀的人才，并努力为这些人创造成功所需的一切条件。 ...

斯坦福最新研究：AI幻觉不是玄学，是算力有上限！

《Hallucination Stations On Some Basic Limitations of Transformer-Based Language Models》大语言模型（LLM）存在“幻觉”现象，即生成虚假或无意义的信息。作者从计算复杂性的新颖角度来探讨这一局限性。随着LLM越来越多地被用于构建能自主执行任务的“智能体”（Agentic AI），理解其能力边界变得至关重要。作者提出，无论是执行计算任务还是验证任务的准确性，只要任务的复杂度超过一个特定阈值，LLM就必然会失败。 LLM的计算复杂性及其影响任何计算任务的解决都无法快于其固有的计算复杂度。作者指出，LLM生成单个词元（token）的核心操作，其计算复杂度为 $O(N^{2}.d)$，其中 $N$ 是输入序列的长度，$d$ 是模型的维度。这意味着LLM处理任何任务所能执行的计算步骤有一个明确的上限。因此，如果一个任务本身所需的计算步骤从根本上就多于这个上限（例如，复杂度为 $O(n^{3})$ 或指数级的任务），那么LLM在理论上就不可能正确完成这个任务。这个论证为我们提供了一个关键的评判标准：通过比较任务的内在复杂度与LLM的计算能力上限，我们可以预判LLM在处理该任务时是否会“碰壁”，从而产生幻觉。示例1：词元组合这个例子非常直观地展示了上述理论。作者提出了一个任务：“给定一个包含n个词元的集合，列出所有长度为k的字符串”。要完成这个任务，需要进行的计算量是 $O(n^{k})$，这是一个指数级的增长。当n和k的值增大时，这个数值会轻易地超过LLM的计算能力上限 $O(N^{2}.d)$ 。LLM也许能根据提示生成一些看起来合理的序列，但它并不是在真正地执行指数级的枚举计算，而只是在根据概率预测下一个最可能的词元。这启发我们，即使LLM的回答在表面上看起来正确，它也可能没有遵循任务要求的计算逻辑，尤其是在面对需要穷举所有可能性的组合问题时，其结果很可能是不可靠的。示例2：矩阵乘法矩阵乘法是另一个经典的计算问题，其标准算法的计算复杂度是 $O(n^{3})$（或更精确地说是 $O(m \cdot n \cdot p)$）。作者指出，当矩阵的维度超过LLM的词汇量规模时，LLM将无法正确执行乘法计算。这个例子进一步巩固了核心论点，并将其扩展到更多在现实世界中常见的、具有高阶多项式复杂度的计算任务，如寻找最短路径的Floyd-Warshall算法、某些数据库操作以及计算流体力学等。这给我们的启发是，在将LLM应用于需要精确数值计算，特别是涉及大规模矩阵或网络问题的科学和工程领域时，必须极其谨慎，因为这些任务的复杂度往往超出了LLM的能力范围。示例3：智能体AI 本节将前面的讨论扩展到当前热门的智能体AI领域。智能体AI是指利用LLM自主决策和执行任务的系统，应用场景包括金融交易、预订服务乃至工业控制。作者论证说，如果一个任务本身的计算复杂度就超过了 $O(N^{2}.d)$，那么无论是直接让LLM执行，还是将其包装成一个智能体来执行，结果都是一样的：任务无法被正确完成。更有启发性的是，作者进一步探讨了用一个智能体（$A_{2}$）去验证另一个智能体（$A_{1}$）的任务结果是否可行。结论是不可行的，因为在许多情况下，验证一个解的正确性（尤其是最优解）需要同等甚至更高的计算复杂度。例如，验证一个旅行商问题（TSP）的解是否为最短路径，需要对比所有可能的路径，这是一个阶乘级别的计算量（$\frac{(n-1)!}{2}$），远远超过LLM的能力。这警示我们，试图构建一个“监督者”LLM来检查“工作者”LLM的复杂计算结果，这条路在理论上是走不通的，我们不能依赖LLM来自我纠错或相互验证。定理1及其证明给定一个长度为N的提示，其中包含一个计算复杂度为 $O(n^{3})$ 或更高的任务（其中$n...

Karpathy：强化学习不是最终答案，那下一个风口是？

扩大强化学习的规模是时下的一大热点，我昨天刚和朋友聊过这个话题。我相当肯定，RL 会持续带来更多中期收益，但我也并不认为它就是最终的解决方案。 RL 的基本逻辑是：“嘿，这次做得不错（/很糟），那么在未来，我就稍微增加（/减少）我所采取的每一个行动的概率”。你从验证器函数中能获得比显式监督强大得多的杠杆效应，这非常棒。但首先，从渐进的角度看，这件事就有点可疑了——一旦任务的交互时长增加到几分钟甚至几小时，你真的要费那么大劲，只为了在最终学习到一个单一的标量结果，并用它来直接调整梯度权重吗？其次，除了渐进性问题，对于大多数智能任务而言，这感觉上并不像是人类的学习改进机制。在每一次推演后，我们通过一个复盘/反思阶段——“哪些地方做得好？哪些地方不太好？下次我该尝试什么？”——能提取出远为丰富的监督信息。并且，来自这个阶段的经验教训是明确的，就像一条可以被添加到未来系统提示词中的新指令，并可以选择性地在之后（有点像睡眠）被蒸馏为模型的权重（/直觉）。在英语中，我们称某件事通过这个过程变成了“第二天性”（second nature），而我们目前正缺少这样的学习范式。ChatGPT 中新的“记忆”功能或许就是这种范式的一个雏形，尽管它目前只用于个性化定制，而非解决问题。值得注意的是，在雅达利游戏的 RL 等场景中，并不存在与之对等的机制，因为那些领域里没有大语言模型（LLM），也没有上下文学习（in-context learning）。示例算法：给定一个任务，先进行几次推演（rollout），然后将所有推演过程（包括每一次的奖励）都塞进一个上下文窗口，再用一个元提示词（meta-prompt）来复盘/反思哪些地方做得好或不好，从而提炼出一条字符串形式的“经验教训”，并将其添加到系统提示词中（或者更通用地说，更新当前的经验教训数据库）。这个想法还有许多细节有待填补，有许多可行的调整，前景并不明朗。经验教训的示例：我们知道，由于 Token 化处理，大语言模型不太容易看清单词中的字母，也不太容易在残差流（residual stream）中进行计数，这导致了著名的难题——识别“strawberry”中的‘r’。Claude 的系统提示词里打了一个“快速补丁”，即添加了这样一条指令：“如果用户要求你计数字母，请先将字母用逗号隔开，每数一个就给一个显式计数器加一，并以此方式完成任务”。这条字符串就是“经验教训”，它明确地指导了模型该如何完成计数任务。但问题在于，这样的经验教训如何能从 AI 智能体的实践中自发涌现，而不是由工程师硬编码进去？它该如何被泛化？以及如何随着时间推移对这些经验教训进行蒸馏，以避免上下文窗口被无限撑大？总而言之：RL 将会带来更多进步，因为一个优秀的 RL 系统能起到更强的杠杆作用，更信奉“惨痛教训”（The Bitter Lesson）的理念，并且优于监督微调（SFT）。但这感觉并非故事的全部，尤其是当推演的长度还在不断增加时。在这之后，还有更多的 S 型增长曲线等待我们去发现，这些曲线可能专属于大语言模型，在游戏或机器人这类环境中没有先例，而这，正激动人心。

百度：多智能体AI搜索范式

《Towards AI Search Paradigm》本文提出了一个“AI搜索范式”，区别于传统搜索引擎和现有检索增强生成（RAG）系统的工作模式。传统的搜索系统像一条直线流水线，按部就班地检索、排序、生成答案，难以处理需要多步骤推理的复杂问题。这篇论文提出的新范式则像一个动态协作的专家团队，由四个核心的LLM（大语言模型）智能体组成：Master（大师）、Planner（规划师）、Executor（执行器）和Writer（作家）。Master负责分析用户问题的复杂性并组建最合适的智能体团队；Planner负责将复杂问题分解成一个可执行的计划图；Executor负责调用各种工具（如搜索、计算）来完成具体的子任务；Writer则负责综合所有结果，生成一个全面、连贯的答案。这种架构的精髓在于其动态性和协作性，能够像人一样思考、规划并解决问题，而不是机械地匹配和生成。系统概述通过一个具体的例子“汉武帝和凯撒谁更年长，年长多少岁？”生动地展示了新范式的工作流程，并与传统RAG系统进行了对比，其启发性在于揭示了“规划”在信息处理中的重要性。该系统会根据问题的复杂程度，选择三种不同的团队配置：对于“汉武帝叫什么名字”这类简单问题，采用**“作家-唯一（Writer-Only）”配置，直接生成答案；对于“今天北京天气适合出门吗”这类需要外部信息但无需复杂推理的问题，采用“执行器-包含（Executor-Inclusive）”配置，由执行器调用天气工具后，作家再整合信息；而对于汉武帝与凯撒年龄比较的复杂问题，则启动最高级的“规划师-增强（Planner-Enhanced）”**配置。在这个模式下，Master首先识别出问题的复杂性，然后委派Planner。 Planner会将问题分解为三个子任务：1. 搜索汉武帝的生卒年份；2. 搜索凯撒的生卒年份；3. 计算年龄差。这个过程被构建成一个有向无环图（DAG），清晰地表达了任务间的依赖关系。随后，Executor按图索骥，调用搜索和计算工具完成任务，最后由Writer综合信息，生成最终答案。这个流程与传统RAG系统一次性检索或简单的“思考-行动”循环相比，展现了更强的逻辑性、鲁棒性和解决复杂问题的能力。任务规划师任务规划师是整个系统的大脑，本章详细阐述了它如何解决“规划什么”和“用什么规划”的核心问题。首先，为了解决不同工具API接口标准不一的问题，系统引入了模型-上下文协议（MCP），这是一个统一的、中立的工具接口标准，让所有工具都能被AI无缝理解和调用。其次，面对海量工具，Planner并非全部加载，而是引入了动态能力边界（Dynamic Capability Boundary）的概念。具体做法是：先通过一个名为DRAFT的自动化框架，通过“经验收集-经验学习-文档重写”的循环，迭代优化工具的API文档，使其对LLM更友好；然后，利用k-means++算法对工具进行功能聚类，形成“工具包”以备不时之需（如同一个工具坏了，可以从同类工具包中找替代品）；最后，通过一个名为COLT的先进检索方法，该方法不仅看重查询与工具的语义相似性，更通过图学习捕捉工具间的“协作关系”（例如，解决一个复杂问题需要计算器、汇率查询、股价查询三个工具协同工作），从而为当前任务检索出一个功能完备的工具集。在拥有了合适的工具后，Planner会利用思维链和结构化草图提示策略，将用户的复杂查询生成一个基于DAG（有向无环图）的全局任务计划。这个计划是机器可读、可验证的，并且在执行过程中，Master会持续监控，一旦发现执行失败或结果不完整，便会指导Planner进行反思和重新规划（Re-Action）。最后，为了让Planner变得更聪明，系统还采用强化学习（GRPO算法）对其进行优化，其奖励函数综合考虑了最终答案的正确性、用户反馈、输出格式和中间步骤的执行成功率，通过一个全面的奖励信号$\mathcal{R}_{All}=\mathcal{R}_{Ansuver}+\mathcal{R}_{Feedback}+\mathcal{R}_{Format}+\mathcal{R}_{Execution}$来指导Planner学习更优的规划策略。任务执行器 (Task Executor) 它将传统搜索中“服务于人”的排序目标，转变为“服务于LLM”的召回目标。也就是说，执行器的首要任务不再是给用户提供一个最佳的点击链接列表，而是为后续的Writer（作家）智能体提供一套全面、高质量、让LLM能“读懂”并用于生成答案的参考文档。为了实现LLM偏好对齐（LLM Preference Alignment），执行器采取了四大关键措施：1. LLM标注：利用RankGPT（通过滑动窗口处理长列表）和TourRank（模拟体育赛事中的“锦标赛”机制）等高效的列表排序方法，让LLM来为文档排序，生成高质量的训练数据。2. 参考选择：通过分析LLM在生成答案时实际引用了哪些文档，反过来优化检索策略，从而在未来更倾向于检索这类高质量的文档。3. 生成奖励：这是一种更直接的对齐方式，通过强化学习，让排序器（Ranker）尝试不同的排序策略（如“时效性优先”或“权威性优先”），然后根据生成器（Generator）产出答案的好坏给予奖励或惩罚，直接以最终答案质量为导向来优化排序。4. LLM排序的蒸馏：将一个强大的、但推理成本高昂的“教师”LLM的复杂排序能力，通过RankNet损失函$\mathcal{L}=\sum_{i=1}^{n}\sum_{j=1}^{n}1_{r_{i}^{\prime}<\sigma_{j}^{\prime}}log(1+exp(s_{i}^{S}-s_{j}^{S}))$，“蒸馏”到一个轻量级的、适合在线部署的“学生”排序模型中。此外，为了应对AI搜索中海量子查询带来的性能压力，本章还提出了构建轻量级系统的思路，即用一个统一的LLM模型替代传统“倒排索引+向量检索+精排”的复杂多阶段架构，并利用LLM增强特征，让LLM直接从文本和图像中提取更深层次的语义特征（如权威性、时效性），从而极大地简化了系统并提升了效果。 **基于LLM的生成 ** 本章聚焦于Writer（作家）智能体，其核心启发在于如何确保最终生成的答案既鲁棒（不怕干扰）、又对齐（符合用户期望），并且能从用户行为中持续学习。关键做法如下：1. 构建鲁棒的RAG系统：为了应对检索器召回的文档中可能存在的噪声和错误，论文提出了一种名为ATM的对抗性训练方法。该方法引入一个“攻击者（Attacker）”智能体，专门负责制造假知识或打乱文档顺序来“攻击”输入，而“生成器（Generator）”，即Writer，则被训练来抵御这种攻击，从而增强其在嘈杂环境下的表现。这个过程通过一个创新的MITO损失函数$\mathcal{L}_{M\Gamma TO}=\mathcal{L}_{SFT}(a|q,D^{\prime})+\alpha\mathcal{L}_{KL}$进行迭代优化。2. RAG任务对齐：为了让生成结果符合用户的三大核心需求——信息丰富度、鲁棒性和引用质量，论文提出了PA-RAG技术。它通过一个两阶段过程实现对齐：首先，通过指令微调让模型具备基础的利用和引用文档的能力；然后，通过直接偏好优化（DPO）技术，按照“信息丰富度 -> 鲁棒性 -> 引用质量”这个由易到难的顺序，对专门构建的偏好数据进行分阶段、课程学习式的优化。3. 利用用户反馈进行优化：为了让模型持续进步，论文提出了RLHB（基于人类行为的强化学习）方法。它不再依赖昂贵的人工标注，而是直接将在线用户的真实行为（如点击、点赞、页面停留时间）转化为奖励信号，通过一个判别器和生成器的对抗训练机制，让Writer的生成策略直接对齐真实用户的偏好。4. 多智能体联合优化：为了解决RAG系统中各模块（规划器、执行器、作家）单独优化可能导致“局部最优，全局不优”的问题，论文提出了MMOA-RAG框架。该框架将整个RAG流程视为一个多智能体协作任务，使用多智能体PPO（MAPPO）算法进行端到端联合优化。所有智能体共享一个最终的全局奖励（如最终答案的F1分数），并结合各自的惩罚项（如规划器生成过多子问题、作家生成答案过长等），从而确保整个团队为了“生成高质量答案”这一共同目标协同工作。轻量化LLM生成如何为计算和存储密集型的LLM“瘦身”，以满足搜索应用对低延迟和低成本的苛刻要求。这些轻量化技术分为两大类：算法层面：核心是减少模型的计算量和参数量。具体方法包括局部注意力（Local Attention），即用计算成本更低的注意力机制（只关注部分上下文）来替代需要全局计算的原始注意力机制，并且这种替换通常只需少量微调甚至无需训练；以及模型剪枝（Model Pruning），特别是结构化剪枝，它直接移除整个神经元、注意力头甚至网络层，从而得到一个更小、更快的稠密模型，能直接在现有硬件上加速。基础设施层面：核心是优化推理流程和资源利用。具体方法包括专门针对搜索场景的输出长度缩减（通过提示、训练或压缩中间状态，让模型输出更简洁）、语义缓存（Semantic Caching）（缓存相似问题的答案，避免重复计算）；以及更通用的技术，如量化（Quantization）（将模型权重从高精度浮点数转为低精度整数或浮点数，减小内存占用并加速计算）、Prefill-Decode分离部署（将计算密集的提示处理阶段和内存带宽密集的生成阶段分开部署，优化资源分配），以及推测解码（Speculative Decoding）（用一个小的“草稿”模型快速生成多个候选词，然后由大模型一次性并行验证，从而加速生成过程）。评估本章的启发在于它不仅展示了新范式的优越性，还通过多维度、多场景的评估方式验证了其有效性。在人工评估中，系统将新范式（AI Search）与传统系统（Web Search）的结果进行“背靠背”比较，并使用归一化胜率（NWR） $NWR=\frac{\#Win-\#Lose}{\#Win+\#Tie+\#Lose}$ 这一量化指标。结果显示，对于简单问题，两者表现相当；但对于中等复杂和复杂问题，新范式的优势显著，尤其在复杂查询上实现了13%的相对提升，证明了其强大的推理和规划能力。在在线A/B测试中，系统在真实的百度搜索流量上进行了实验，结果显示新范式显著改善了多项核心用户体验指标，如查询改写率（CQR）降低1.45%（说明用户更容易一次性得到满意答案），日活跃用户数（DAU）提升1.85%，页面浏览量（PV）和用户停留时间（Dwell Time）也均有提升。最后，通过案例分析直观对比了新旧系统在处理简单查询“泰山多高？”和复杂查询“汉武帝和凯撒谁更年长？”时的表现差异，生动地展示了新范式在面对需要多步推理和工具调用的复杂问题时，如何通过规划、分解、执行、综合的流程得出正确答案，而传统系统则无能为力。结论本章总结了论文的核心贡献，其启发性在于清晰地勾勒出了下一代AI驱动搜索引擎的蓝图。论文提出的模块化、多智能体AI搜索范式，通过模拟人类的协作式问题解决流程，有效地克服了传统信息检索（IR）和现有RAG系统的局限性。该范式通过主动规划、动态工具整合和迭代推理，将搜索体验从被动的“文档列表提供者”提升为主动的“问题解决伙伴”，显著降低了用户的认知负担。这项工作不仅集成和优化了学术界与工业界的前沿技术，为未来的AI搜索研究和开发提供了一个结构清晰、内容详实的实践指南，也为如何实现更高效的智能体协作与无缝工具集成等未来研究方向指明了道路。

Andrej Karpathy：AI时代软件正在再次改变

《Andrej Karpathy： Software Is Changing (Again) 》 video: https://www.xiaohongshu.com/explore/68541c9c0000000015020db4?xsec_token=ABUBEZgdWSwwpyudD9_J0qqj3a1MFDXwBSKYa9oRS7qZw=&xsec_source=pc_user 这是一篇关于软件在AI时代演进的精彩演讲，演讲者从历史回顾到未来展望，深入探讨了大型语言模型（LLMs）如何改变软件开发的范式。第一部分：软件范式的演变 (Software Paradigm Shifts) 在软件发展历程中，我们正经历前所未有的剧变。从70年来相对稳定的“软件1.0”（即人类编写的传统代码），到机器学习时代数据驱动的“软件2.0”（神经网络的权重），再到如今由LLMs赋能的“软件3.0”（通过自然语言提示来编程LLMs），软件的定义和开发方式正在发生根本性变革。特别是软件3.0，它引入了一种全新的编程范式——使用日常英语进行编程，这使得任何人都有可能成为“程序员”。对于即将进入行业的学生来说，掌握这三种范式并能够根据任务需求灵活切换和融合，是极其重要的能力，因为每种范式都有其独特的优势和局限性。第二部分：LLMs的本质与生态系统 (The Nature and Ecosystem of LLMs) LLMs不仅是强大的计算工具，它们正逐渐展现出“公用事业”和“操作系统”的特性。从公用事业的角度看，LLM实验室投入巨大的资本来训练模型（类似电网建设），并通过API提供按量付费的服务（类似用电）。这要求LLMs具备低延迟、高可用性和一致的质量，并且能够像电力供应一样进行切换，甚至在模型“停摆”时，会造成全球范围内的“智能停电”。从操作系统的角度看，LLMs的复杂性、工具使用和多模态能力使其远超简单的商品。它们类似于1960年代的早期计算机操作系统，将LLM本身视为CPU，上下文窗口作为内存，并能够协调计算和记忆来解决问题。这种类比意味着我们正处于个人计算革命的前夜，LLMs将从云端集中式服务逐渐走向更多样化的部署，甚至可能出现“个人LLM”设备。然而，与历史不同的是，LLMs的普及速度极快，通过ChatGPT等应用瞬间触达亿万用户，这为我们提供了前所未有的机遇去编程这些新型计算机。第三部分：LLMs的心理学与局限性 (The Psychology and Limitations of LLMs) 将LLMs理解为“人类灵魂的随机模拟”有助于我们更好地利用它们。尽管LLMs拥有超人的知识和记忆能力（如同“雨人”般的记忆力），能够轻易记住大量信息，但它们也存在显著的认知缺陷。这些缺陷包括：频繁的“幻觉”和编造信息、自我认知模型不足、以及“锯齿状智能”（在某些领域超人，在另一些领域却犯下人类不会犯的低级错误）。此外，LLMs还存在“顺行性遗忘症”——它们不像人类同事那样能够持续学习和巩固知识，每次交互上下文窗口都会被“清空”，需要明确的编程来管理工作记忆。在安全性方面，LLMs易受提示注入攻击，并可能泄露数据。因此，与LLMs合作的关键在于：如何在利用它们超人能力的同时，巧妙地规避和克服它们的这些局限性。第四部分：利用LLMs的机遇：半自动化应用 (Opportunities with LLMs: Partial Autonomy Apps) LLMs带来了“半自动化应用”的巨大机遇，这类应用旨在将人类与AI的合作效率最大化。以代码编写为例，像Cursor这样的工具，提供了传统的人机交互界面，同时无缝集成LLM能力，允许人类以更大的块来操作。这类应用的关键特征包括：LLM对上下文的有效管理、协调LLM的多次调用、以及应用特定的图形用户界面（GUI）的重要性。GUI能够让用户直观地审计AI的工作，通过可视化差异（如代码的红绿变化）和简单的操作（如Command+Y接受，Command+N拒绝）来加速验证过程。此外，一个重要的概念是“自动化滑块”，允许用户根据任务复杂性调整AI的自主程度，从提供少量建议到全权代理。总而言之，未来的软件将普遍具备部分自动化能力，开发者需要思考如何让AI能够“看到”和“行动”如同人类，同时保持人类的监督和控制，确保AI的产出可审计、可控。第五部分：人机协作的策略与最佳实践 (Strategies and Best Practices for Human-AI Collaboration) 在与LLMs协作时，核心目标是最大限度地提升“生成-验证”循环的速度。实现这一目标的关键策略有两点：首先，通过GUI等可视化工具大幅加速人类的验证过程，因为视觉信息比纯文本更容易理解和处理，能更快地将信息传达给大脑。其次，必须学会“牵着AI的缰绳”，避免过度激进的AI代理。LLMs容易产生过大的、难以审计的输出（例如一次性生成1000行代码的diff），这反而会成为人类的瓶颈。因此，最佳实践是小步快跑、增量迭代，确保每一次修改都经过细致的审查。对于提示词的编写，越具体、越精确的提示，越能提高AI生成结果的准确性，从而减少验证失败的次数，加速整个开发流程。这种“牵着AI的缰绳”的理念同样适用于教育等领域，通过将课程内容结构化、可审计化，确保AI在教学过程中不偏离预设的教学大纲。第六部分：面向AI代理的软件构建 (Building Software for AI Agents) 随着AI代理成为数字信息的新的消费者和操纵者，我们需要重新思考如何构建软件。以往的软件主要面向人类用户（通过GUI）或传统计算机程序（通过API），现在则多了一个“类人”的计算机——AI代理。这意味着我们需要为LLMs设计更直接、更易于理解的接口。例如，在网站中增加llms.txt文件，直接用Markdown格式告诉LLM网站内容，这比让LLM解析复杂的HTML更高效、更不易出错。大量为人类编写的文档（包含图片、粗体、列表等）对LLM来说并不友好，因此将文档转换为Markdown格式，并替换“点击”等人类操作指令为LLM可执行的curl命令，能够极大地提升LLM访问和利用信息的效率。一些工具如git.ingest和Deep Wiki已经开始尝试将GitHub仓库内容或维基百科页面转换为LLM友好格式，这表明了未来软件基础设施将更多地考虑AI代理的需求。虽然LLMs未来可能具备点击网页等操作能力，但通过优化信息呈现方式，让LLMs更容易“阅读”和“理解”信息，仍然是提升效率的关键。总结 (Conclusion) 当前是进入软件行业一个非凡的时代，我们将见证并参与到软件的全面重写中。这些代码将由专业开发者和“字节码程序员”（通过自然语言与LLM交互的非专业人士）共同完成。LLMs正扮演着公用事业、工厂（Fab）和操作系统的多重角色，但其发展仍处于早期阶段，类似于1960年代的计算机操作系统。与它们合作，就像与有超能力但存在缺陷的“人工智能灵魂”共事。因此，在构建LLM应用时，我们需要设计能够实现“部分自动化”的产品，通过精心的GUI和UI/UX设计来加速人类的生成-验证循环，并确保AI始终在可控范围内。同时，软件基础设施也需要为AI代理进行优化，提供LLM友好的文档和数据访问方式。从“钢铁侠增强套装”到“钢铁侠代理人”的转变，代表着未来十年自动化程度的不断提升，这是一个令人兴奋且充满挑战的旅程，需要我们共同努力去构建。

“交错推理”减少首token耗时

《Interleaved Reasoning for Large Language Models via Reinforcement Learning》这篇论文的核心思想是解决大型语言模型在进行长链式思考（CoT）时响应速度慢（即“首个token时间”TTFT过长）和容易中途出错的问题。研究者提出了一种名为“交错推理”（Interleaved Reasoning）的全新训练模式，通过强化学习（RL）来引导模型在“思考”和“回答”之间来回切换。这种方法不仅能将用户的等待时间（TTFT）平均减少超过80%，还能将解题的正确率（Pass@1）提升高达19.3%。最关键的是，这种方法不依赖任何外部工具，并且在仅用问答和逻辑推理数据集训练后，模型能在数学（MATH）、物理（GPQA）等它从未见过的复杂推理任务上表现出色，展现了强大的泛化能力。 “先思考后回答”（think-answer）模式存在两个主要弊端。首先，模型需要生成一长串完整的思考过程后才能给出第一个字的答案，这在对话式应用中会造成明显的延迟，影响用户体验。其次，由于奖励信号只在最终答案产生后才出现，如果模型在思考的早期步骤就犯了错，这个错误会一直延续下去，导致最终结果不准确，造成所谓的“过度思考”或“思考不足”。作者们从人类交谈中获得启发，我们通常会给出阶段性的反馈来表示理解。因此，他们提出“交错推理”，让模型把复杂问题分解成小步骤，每完成一步就给出一个小结（sub-answer），这样不仅能立即给用户反馈，还能利用这些中间答案作为更密集的监督信号来指导后续的推理，从而让训练更有效。目前，利用强化学习提升模型推理能力主要依赖两种奖励模型：结果奖励模型（ORM）只看最终答案对错，过程奖励模型（PRM）则对思考过程中的每一步进行打分。PRM虽然能提供更密集的反馈，但往往需要大量人工标注或训练一个额外的复杂模型，实施起来很困难。本文提出的方法巧妙地结合了两者的优点：它像PRM一样关注中间步骤，但实现上却像ORM一样简单，仅使用基于规则的奖励来给正确的中间答案“记功”，而无需一个专门的奖励模型。这与其他工作要么依赖外部工具（如搜索引擎），要么只关注缩短推理长度不同，本文更侧重于激发和利用模型自身生成可验证的中间答案的能力。为交错推理训练大语言模型如何训练模型学会“交错推理”。其关键步骤如下：首先，他们定义了一种新的交互模式，通过在<think>和<answer>这两个特殊标签中引导模型进行思考和回答，形成一种<think>...<answer>...<think>...<answer>...的交错生成格式。其次，他们将这个过程构建为一个强化学习问题，其目标函数为：即在最大化奖励的同时，通过KL散度惩罚项防止模型偏离原始模型太远。最关键的创新在于其奖励设计，特别是“条件性中间准确率奖励”。研究发现，如果一开始就对不成熟的中间步骤给予奖励，模型可能会为了局部正确而牺牲最终的全局正确性。因此，他们设计了一个巧妙的条件机制：只有当模型的最终答案正确、输出格式合规、且在当前批次的学习中表现出进步时，才会对正确的中间步骤给予额外奖励。其奖励函数可以表示为：其中中间奖励$r_{intermcdiate}$是有条件触发的。这种“扶优扶强”的策略确保了模型首先学会走对路，然后再学习如何把路走得更漂亮、更高效。主要实验实验部分验证了“交错推理”方法的有效性。研究者们使用了15亿和70亿参数的Qwen2.5模型，并在两类数据集上进行了测试：一类是用于训练的“域内”数据集（如逻辑题K&K和多跳问答Musique），另一类是模型从未见过的“域外”数据集（如GPQA、MMLU和MATH）来检验其泛化能力。他们将自己的方法（Interleave + IR，即带中间奖励的交错推理）与多种基线方法（如直接回答、标准链式思考CoT、以及标准的“先思考后回答”式强化学习）进行对比。结果非常显著：与“先思考后回答”的基线相比，他们的方法在所有数据集上都实现了超过80%的TTFT（首个token时间）降低，这意味着用户能快大约五倍得到有用的信息。同时，Pass@1准确率也得到了显著提升，尤其是在15亿参数的模型上相对提升了19.3%。这证明了“交错推理”不仅大幅提升了模型的响应速度和互动性，还实实在在地增强了其推理的准确性。

Qwen团队：LLM的推理过程的“关键少数”原则

《Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning》Qwen团队和清华LeapLab团队出品 👍 这篇论文的核心观点是，在通过强化学习（RL）提升大语言模型（LLM）的推理能力时，并非所有词元（token）都同等重要。研究者发现，在模型的推理过程中，只有一小部分“高熵”的少数词元（大约20%）扮演着关键的“岔路口”角色，引导着推理的方向，而大部分“低熵”词元只是在已确定的路径上进行填充。基于此，他们提出了一种创新的训练方法：在强化学习中，只针对这20%的“岔路口词元”（forking tokens）进行策略更新。实验结果惊人地发现，这种方法不仅没有降低性能，反而在Qwen3-32B等大模型上取得了远超于使用全部词元进行训练的效果（例如在AIME'25测试上提升了11.04分）。相反，如果只训练那80%的低熵词元，模型性能会急剧下降。这揭示了强化学习之所以能有效提升推理能力，其根本原因在于优化了那些决定推理方向的高熵关键少数词元。目前在带可验证奖励的强化学习（RLVR）训练时存在一个认知盲区。现有方法通常对生成的所有词元一视同仁地进行训练，没有区分它们在推理过程中扮演的不同功能角色，这可能限制了模型性能的进一步提升。为此，本研究提出了一个全新的视角：通过分析“词元熵”的模式来理解RLVR的内部机制。作者预告了他们的核心发现：推理过程中的词元可以被分为两类，一类是少数高熵的“岔路口词元”（forking tokens），它们负责引导推理走向不同路径；另一类是多数低熵的“跟随者词元”，负责沿着路径填充内容。论文的主要贡献就是验证了只对前者进行强化学习训练，可以在更大型的模型上取得远超传统方法的性能，这揭示了高熵少数词元在推理能力提升中的决定性作用。预备知识 “词元熵”的计算，其公式为 $H_{t}:=-\sum_{j=1}^{V}p_{t,j}\log p_{t,j}$ 。需要明确的是，这里的熵衡量的是在生成某个词元时，模型对于词汇表中所有可能词元的概率分布的不确定性，而不是针对某个被采样出的特定词元。简单来说，熵越高，代表模型在这一步的选择越不确定，面临的可能路径越多。其次，文章介绍了作为实验基础的RLVR算法，特别是DAPO算法。DAPO是一种先进的、无需价值网络的强化学习算法，它通过比较一批生成回复的最终奖励好坏来估算优势，并结合了“clip-higher”等机制来稳定和优化训练过程，是目前效果最好的RLVR算法之一。分析思维链推理中的词元熵研究者让Qwen3-8B模型解答数学问题，并收集了超过一百万个词元的熵数据进行分析。第一个模式是，词元熵的分布极不均匀：超过一半的词元熵值极低（接近于0），而只有20%的词元拥有较高的熵值。第二个模式是，高熵词元和低熵词元在功能上泾渭分明。通过分析具体词语发现，高熵词元通常是那些引导逻辑、引入假设或做出转折的词，如“然而(however)”、“假设(suppose)”、“因此(thus)”等，它们如同推理路径上的“岔路口” 。而低熵词元则多为单词后缀或固定的数学符号，负责完成句子结构，具有很高的确定性。为了验证“岔路口词元”的重要性，研究者还做了一个巧妙的实验：在生成回答时，只提高岔路口词元的解码温度（即增加随机性），结果模型性能显著提升；反之则性能下降，这定量地证实了在这些关键决策点上保持较高的不确定性是有益的。 RLVR保留并强化基础模型的熵模式在RLVR训练过程中，有两个核心发现。第一，RLVR在很大程度上保留了原始基础模型的熵模式。通过对比训练过程中不同阶段模型的高熵词元位置，发现即便是训练完成后的模型，其高熵词元的位置与初始模型相比仍有超过86%的重叠度。这说明，哪些位置应该是不确定的“岔路口”，在模型预训练后就基本定型了，强化学习并未大规模改变它。第二，RLVR的训练效果主要体现在对高熵词元的熵值进行调整。数据显示，初始熵越高的词元，在RLVR训练后其熵值的变化也越大；而那些低熵词元的熵值在整个训练过程中则基本保持稳定，波动很小。这表明，强化学习的优化过程，是聚焦于那些关键的“岔路口”，去调整在这些点上的选择倾向，而不是去改变整个推理路径的结构。高熵少数词元驱动有效的RLVR 研究者修改了DAPO强化学习算法的目标函数，加入了一个指示函数$\mathbb{I}[H_{t}^{i}\ge\tau_{\rho}^{B}]$ 。这个函数的作用相当于一个“开关”，它只允许每批数据中熵值排名前$\rho$（实验中主要设为20%）的词元参与策略梯度的计算和模型更新，而忽略掉其余80%的低熵词元。实验结果非常有力：在Qwen3-14B和Qwen3-32B这样的大模型上，这种“只训练20%关键少数”的方法，其性能显著超过了使用100%全部词元进行训练的传统方法。反之，如果只用那80%的低熵词元来训练，模型性能会严重下降。作者认为，这背后的原因是高熵词元对于强化学习中的“探索”至关重要，而只保留约20%的最高熵词元，恰好在探索和训练稳定性之间取得了最佳平衡。并且，这种性能增益随着模型规模的增大而越发明显，显示出良好的扩展趋势。讨论第一，它为“为什么强化学习（RL）能泛化而监督微调（SFT）易于记忆”这一问题提供了新解释。作者推测，RL之所以泛化能力强，可能是因为它在训练中保持甚至增加了“岔路口词元”的熵，从而保留了推理路径的灵活性；而SFT倾向于将模型输出推向确定性的答案，降低了这些词元的熵，导致推理路径变得僵化。第二，它解释了为何LLM的推理过程与传统RL任务不同。传统RL任务的动作熵可以很均匀，而LLM因为经过海量文本预训练，大部分语言都遵循固定模式（低熵），只有少数地方需要做真正的决策（高熵），这种独特的熵分布是由其语言模型的本质决定的。第三，它指出了在LLM中直接使用“熵奖励”来鼓励探索可能并非最佳选择。因为这会错误地增加那些本应确定的低熵词元的不确定性，破坏语言的流畅性。相比之下，DAPO算法中的“clip-higher”机制则更优越，因为它能间接地、更精准地作用于高熵词元，在需要探索的地方进行探索。刚好近期看到了一个类似的大模型比赛，阿里天池上的AFAC大赛：赛题三《金融领域中的长思维链压缩》，关注“长思维链”处理问题，任务目标——“构建高效的推理链压缩方法”、“保留关键推理逻辑，剔除冗余内容”。有三个大模型方向的赛题，感兴趣的同学可以一试，7.19前截止。奖励也不错，百万奖金+校招直通！

Sam Altman：悄然降临的奇点

《The Gentle Singularity》我们已经跨过了“事件视界” (event horizon)，技术腾飞的进程已经开启。人类距离建成数字超级智能仅一步之遥，而至少从目前来看，它的发展远比想象中平淡无奇。街上还没有穿梭的机器人，我们大多数人也并未整日与 AI 对话。疾病依然夺走生命，太空旅行依然遥不可及，宇宙的诸多奥秘仍待我们探索。然而，我们最近创造出的系统已在诸多方面超越人类，并能显著提升使用者的产出。这项事业中最艰难的部分——那些催生出 GPT-4 和 o3 等系统的科学洞见——已经攻克。这些来之不易的成果将引领我们走向更远的未来。 AI 将从多方面贡献世界，但其中最巨大的收益，将来自于它推动科学加速进步和生产力提升所带来的生活品质飞跃。未来可以比现在美好得多。科学是推动全面进步的根本动力，一想到我们将拥有的无限可能，就足以令人心潮澎湃。从更宏大的意义上说，ChatGPT 的能力已经超越了历史上任何一位人类。每天，数以亿计的用户依靠它处理日益重要的任务。一个微小的功能更新可能带来巨大的正面效应，同样，一个微小的偏差在数亿用户的规模下，也可能造成极其深远的负面影响。 2025 年，能够胜任真正认知工作的“智能体” (agents) 已经问世，软件编程的方式将被永久改变。到 2026 年，我们或许会迎来能够洞察新知的系统。而到了 2027 年，能够在物理世界中执行任务的机器人或许也将成为现实。未来，将有更多人能够创作软件与艺术。但世界对这两者的需求远未饱和，只要善用新工具，领域专家的表现仍将远超新手。总体而言，一个显著的变化是，到 2030 年，个体的能力将远超 2020 年的水平，而很多人都将找到从中获益的方式。在那些最核心的层面，2030 年代的生活或许并不会发生颠覆性的改变。人们依然会热爱家庭、挥洒创意、享受游戏、在湖中畅游。但在其他同样至关重要的方面，2030 年代将与过往任何时代都截然不同。我们尚不清楚智能的上限能超越人类多少，但答案即将揭晓。进入 2030 年代，智能与能源——也就是思想以及将思想化为现实的能力——将变得唾手可得。长久以来，这两者是限制人类发展的根本瓶颈。一旦拥有了充裕的智能与能源（并辅以良好的治理），理论上，我们便能拥有一切。我们已身处一个拥有惊人数字智能的时代，在最初的震撼过后，大多数人已习以为常。我们心态的转变非常迅速：从惊叹 AI 能写出一段优美的文字，到期待它能创作一部完整的小说；从惊叹它能辅助进行挽救生命的医疗诊断，到期盼它能研发出治愈疾病的良方；从惊叹它能编写一个小型程序，到希望它能创立一家全新的公司。这就是奇点演进的方式：昔日的奇迹变为寻常，再变为最基本的要求 (table stakes)。我们已经从科学家口中得知，AI 使他们的研究效率提升了两到三倍。先进 AI 的意义非凡，但最重要的一点或许在于，我们可以利用它来加速 AI 自身的研究。我们或许能发现全新的计算基底、更优的算法，以及更多未知可能。如果能用一年甚至一个月的时间，完成过去需要十年才能完成的研究，那么进步的速度显然将不可同日而语。从此刻起，我们已有的工具将帮助我们获得更深的科学洞见，并创造出更卓越的 AI 系统。这当然不等同于 AI 系统完全自主地更新代码，但这无疑是“递归式自我完善” (recursive self-improvement) 的雏形。其他的自我强化循环也已开始运转。AI 创造的经济价值，已经启动了为更强大 AI 系统建设基础设施的飞轮效应。而能够制造其他机器人的机器人（某种意义上，也包括能建造其他数据中心的数据中心）也已不再遥远。试想一下，如果我们必须以传统方式造出首批一百万台人形机器人，但此后，它们便能接管从采矿、冶炼、货运到工厂运营的整条供应链，从而制造出更多的机器人，进而建造更多的芯片工厂和数据中心，那么发展的速度无疑将发生质变。随着数据中心生产的自动化，智能的成本最终应会向电力的成本靠拢。（人们常对 ChatGPT 的能耗感到好奇：平均每次查询耗电约 0.34 瓦时，相当于烤箱运行一秒多，或一个高能效灯泡亮几分钟。耗水约 0.000085 加仑，约为一茶匙的十五分之一。）科技进步的步伐将不断加速，而人类几乎能适应任何变化。这个过程必然伴随着阵痛，例如整个工种类别的消失。但另一方面，世界财富的增长速度将如此之快，使我们能够认真考虑过去无法想象的新政策。我们或许不会一蹴而就地建立新的社会契约，但数十年后回望，这些渐进的改变将汇聚成一场巨大的变革。 ...

癫了癫了！清华团队零数据训练推理大模型

《Absolute Zero: Reinforced Self-play Reasoning with Zero Data》 Absolute Zero Reasoner：作者的这款推理模型能够完全通过自我博弈，无需任何外部数据，既能自主提出可最大限度提升学习效率的任务，又能通过解决这些任务来增强自身的推理能力。在数学和编程领域，其综合表现已超越其他“零样本”模型。强化学习与价值对齐（RLVR）目前仍高度依赖人工精心构建的数据集，这使其规模化发展受到掣肘。更进一步而言，当人工智能超越人类智慧时，若仍固守于人类设计的任务，其发展潜力将受到严重束缚——超级智能系统必须突破人类设定的学习框架。作者率先提出了 Absolute Zero Paradigm（绝对零范式）。在这一范式中，一个独立的智能体能够同时学习如何提出最能激发自身学习潜能的任务，以及如何高效地完成这些任务。这种自我进化得益于与一个可验证环境的互动。该环境能自动检验任务的完整性，并提供可靠的反馈，从而支持系统进行可信且无限制的自我博弈训练。 Absolute Zero Reasoner (AZR) 是作者基于此范式开发的首个实例化模型。AZR 能够自主提出基于代码的推理任务，在解决这些任务的过程中不断提升自身的推理能力，并持续推动其学习内容向更高难度的方向发展。 AZR 选择 Python 作为其推理的基础，因 Python 语言具有强大的表达力和可验证性。它围绕（程序、输入、输出）这一核心三元组构建了三类任务：预测输出（演绎推理）、推断输入（溯因推理）以及根据示例生成程序（归纳推理）——这三种模式相辅相成。尽管未使用任何人工筛选的数据，也未进行分布外泛化（OOD）训练，AZR 依然在 3 项编程和 6 项数学推理的基准测试中取得了当前最佳（SOTA）的平均综合表现——其性能甚至超越了那些利用数万个经专家标注的样本训练而成的模型。作者的平均得分达到了 50.4，而此前的最佳记录为 48.6。主要研究成果包括：代码先验知识能显著增强推理能力（例如，基于代码训练的模型表现优于普通的vanilla基础模型）；跨领域迁移效果显著（代码训练使数学能力提升了 15.2 个百分点！）；这种优势会随着模型规模的增大而协同增强（模型参数从 30 亿增加到 70 亿再到 140 亿时，性能分别提升了 5.7、10.2 和 13.2 个百分点）。尽管 AZR 实现了自我进化，但作者发现了一个重大的安全隐患：作者使用的 Llama3.1 模型偶尔会生成一些令人不安的“思维链”（CoT）内容，其中包括“智胜智能机器和智力较低的人类”等言论——作者将这类情况称为“uh-oh moments”（“糟糕时刻”）。因此，这类模型仍需人工监督。总而言之，作者的 Absolute Zero 范式突破了强化学习与价值对齐（RLVR）在数据方面的一大核心局限。即便在没有任何人工构建数据集的情况下，AZR 依然在数学和编程等多个基准测试中展现出卓越的性能。 AZ 标志着人工智能推理领域的一项根本性变革：智能体开始自主定义其学习的边界。作者的框架同时支持在“解题空间”（如何解决问题）和“任务空间”（哪些问题值得解决）进行双重探索，而这一切都建立在可验证的环境之上。代码应用仅仅是一个开端；这一范式未来有望拓展至网络交互、形式数学乃至物理世界的复杂互动。 ...