大模型 | 一只小茄墩

百度：多智能体AI搜索范式

《Towards AI Search Paradigm》本文提出了一个“AI搜索范式”，区别于传统搜索引擎和现有检索增强生成（RAG）系统的工作模式。传统的搜索系统像一条直线流水线，按部就班地检索、排序、生成答案，难以处理需要多步骤推理的复杂问题。这篇论文提出的新范式则像一个动态协作的专家团队，由四个核心的LLM（大语言模型）智能体组成：Master（大师）、Planner（规划师）、Executor（执行器）和Writer（作家）。Master负责分析用户问题的复杂性并组建最合适的智能体团队；Planner负责将复杂问题分解成一个可执行的计划图；Executor负责调用各种工具（如搜索、计算）来完成具体的子任务；Writer则负责综合所有结果，生成一个全面、连贯的答案。这种架构的精髓在于其动态性和协作性，能够像人一样思考、规划并解决问题，而不是机械地匹配和生成。系统概述通过一个具体的例子“汉武帝和凯撒谁更年长，年长多少岁？”生动地展示了新范式的工作流程，并与传统RAG系统进行了对比，其启发性在于揭示了“规划”在信息处理中的重要性。该系统会根据问题的复杂程度，选择三种不同的团队配置：对于“汉武帝叫什么名字”这类简单问题，采用**“作家-唯一（Writer-Only）”配置，直接生成答案；对于“今天北京天气适合出门吗”这类需要外部信息但无需复杂推理的问题，采用“执行器-包含（Executor-Inclusive）”配置，由执行器调用天气工具后，作家再整合信息；而对于汉武帝与凯撒年龄比较的复杂问题，则启动最高级的“规划师-增强（Planner-Enhanced）”**配置。在这个模式下，Master首先识别出问题的复杂性，然后委派Planner。 Planner会将问题分解为三个子任务：1. 搜索汉武帝的生卒年份；2. 搜索凯撒的生卒年份；3. 计算年龄差。这个过程被构建成一个有向无环图（DAG），清晰地表达了任务间的依赖关系。随后，Executor按图索骥，调用搜索和计算工具完成任务，最后由Writer综合信息，生成最终答案。这个流程与传统RAG系统一次性检索或简单的“思考-行动”循环相比，展现了更强的逻辑性、鲁棒性和解决复杂问题的能力。任务规划师任务规划师是整个系统的大脑，本章详细阐述了它如何解决“规划什么”和“用什么规划”的核心问题。首先，为了解决不同工具API接口标准不一的问题，系统引入了模型-上下文协议（MCP），这是一个统一的、中立的工具接口标准，让所有工具都能被AI无缝理解和调用。其次，面对海量工具，Planner并非全部加载，而是引入了动态能力边界（Dynamic Capability Boundary）的概念。具体做法是：先通过一个名为DRAFT的自动化框架，通过“经验收集-经验学习-文档重写”的循环，迭代优化工具的API文档，使其对LLM更友好；然后，利用k-means++算法对工具进行功能聚类，形成“工具包”以备不时之需（如同一个工具坏了，可以从同类工具包中找替代品）；最后，通过一个名为COLT的先进检索方法，该方法不仅看重查询与工具的语义相似性，更通过图学习捕捉工具间的“协作关系”（例如，解决一个复杂问题需要计算器、汇率查询、股价查询三个工具协同工作），从而为当前任务检索出一个功能完备的工具集。在拥有了合适的工具后，Planner会利用思维链和结构化草图提示策略，将用户的复杂查询生成一个基于DAG（有向无环图）的全局任务计划。这个计划是机器可读、可验证的，并且在执行过程中，Master会持续监控，一旦发现执行失败或结果不完整，便会指导Planner进行反思和重新规划（Re-Action）。最后，为了让Planner变得更聪明，系统还采用强化学习（GRPO算法）对其进行优化，其奖励函数综合考虑了最终答案的正确性、用户反馈、输出格式和中间步骤的执行成功率，通过一个全面的奖励信号$\mathcal{R}_{All}=\mathcal{R}_{Ansuver}+\mathcal{R}_{Feedback}+\mathcal{R}_{Format}+\mathcal{R}_{Execution}$来指导Planner学习更优的规划策略。任务执行器 (Task Executor) 它将传统搜索中“服务于人”的排序目标，转变为“服务于LLM”的召回目标。也就是说，执行器的首要任务不再是给用户提供一个最佳的点击链接列表，而是为后续的Writer（作家）智能体提供一套全面、高质量、让LLM能“读懂”并用于生成答案的参考文档。为了实现LLM偏好对齐（LLM Preference Alignment），执行器采取了四大关键措施：1. LLM标注：利用RankGPT（通过滑动窗口处理长列表）和TourRank（模拟体育赛事中的“锦标赛”机制）等高效的列表排序方法，让LLM来为文档排序，生成高质量的训练数据。2. 参考选择：通过分析LLM在生成答案时实际引用了哪些文档，反过来优化检索策略，从而在未来更倾向于检索这类高质量的文档。3. 生成奖励：这是一种更直接的对齐方式，通过强化学习，让排序器（Ranker）尝试不同的排序策略（如“时效性优先”或“权威性优先”），然后根据生成器（Generator）产出答案的好坏给予奖励或惩罚，直接以最终答案质量为导向来优化排序。4. LLM排序的蒸馏：将一个强大的、但推理成本高昂的“教师”LLM的复杂排序能力，通过RankNet损失函$\mathcal{L}=\sum_{i=1}^{n}\sum_{j=1}^{n}1_{r_{i}^{\prime}<\sigma_{j}^{\prime}}log(1+exp(s_{i}^{S}-s_{j}^{S}))$，“蒸馏”到一个轻量级的、适合在线部署的“学生”排序模型中。此外，为了应对AI搜索中海量子查询带来的性能压力，本章还提出了构建轻量级系统的思路，即用一个统一的LLM模型替代传统“倒排索引+向量检索+精排”的复杂多阶段架构，并利用LLM增强特征，让LLM直接从文本和图像中提取更深层次的语义特征（如权威性、时效性），从而极大地简化了系统并提升了效果。 **基于LLM的生成 ** 本章聚焦于Writer（作家）智能体，其核心启发在于如何确保最终生成的答案既鲁棒（不怕干扰）、又对齐（符合用户期望），并且能从用户行为中持续学习。关键做法如下：1. 构建鲁棒的RAG系统：为了应对检索器召回的文档中可能存在的噪声和错误，论文提出了一种名为ATM的对抗性训练方法。该方法引入一个“攻击者（Attacker）”智能体，专门负责制造假知识或打乱文档顺序来“攻击”输入，而“生成器（Generator）”，即Writer，则被训练来抵御这种攻击，从而增强其在嘈杂环境下的表现。这个过程通过一个创新的MITO损失函数$\mathcal{L}_{M\Gamma TO}=\mathcal{L}_{SFT}(a|q,D^{\prime})+\alpha\mathcal{L}_{KL}$进行迭代优化。2. RAG任务对齐：为了让生成结果符合用户的三大核心需求——信息丰富度、鲁棒性和引用质量，论文提出了PA-RAG技术。它通过一个两阶段过程实现对齐：首先，通过指令微调让模型具备基础的利用和引用文档的能力；然后，通过直接偏好优化（DPO）技术，按照“信息丰富度 -> 鲁棒性 -> 引用质量”这个由易到难的顺序，对专门构建的偏好数据进行分阶段、课程学习式的优化。3. 利用用户反馈进行优化：为了让模型持续进步，论文提出了RLHB（基于人类行为的强化学习）方法。它不再依赖昂贵的人工标注，而是直接将在线用户的真实行为（如点击、点赞、页面停留时间）转化为奖励信号，通过一个判别器和生成器的对抗训练机制，让Writer的生成策略直接对齐真实用户的偏好。4. 多智能体联合优化：为了解决RAG系统中各模块（规划器、执行器、作家）单独优化可能导致“局部最优，全局不优”的问题，论文提出了MMOA-RAG框架。该框架将整个RAG流程视为一个多智能体协作任务，使用多智能体PPO（MAPPO）算法进行端到端联合优化。所有智能体共享一个最终的全局奖励（如最终答案的F1分数），并结合各自的惩罚项（如规划器生成过多子问题、作家生成答案过长等），从而确保整个团队为了“生成高质量答案”这一共同目标协同工作。轻量化LLM生成如何为计算和存储密集型的LLM“瘦身”，以满足搜索应用对低延迟和低成本的苛刻要求。这些轻量化技术分为两大类：算法层面：核心是减少模型的计算量和参数量。具体方法包括局部注意力（Local Attention），即用计算成本更低的注意力机制（只关注部分上下文）来替代需要全局计算的原始注意力机制，并且这种替换通常只需少量微调甚至无需训练；以及模型剪枝（Model Pruning），特别是结构化剪枝，它直接移除整个神经元、注意力头甚至网络层，从而得到一个更小、更快的稠密模型，能直接在现有硬件上加速。基础设施层面：核心是优化推理流程和资源利用。具体方法包括专门针对搜索场景的输出长度缩减（通过提示、训练或压缩中间状态，让模型输出更简洁）、语义缓存（Semantic Caching）（缓存相似问题的答案，避免重复计算）；以及更通用的技术，如量化（Quantization）（将模型权重从高精度浮点数转为低精度整数或浮点数，减小内存占用并加速计算）、Prefill-Decode分离部署（将计算密集的提示处理阶段和内存带宽密集的生成阶段分开部署，优化资源分配），以及推测解码（Speculative Decoding）（用一个小的“草稿”模型快速生成多个候选词，然后由大模型一次性并行验证，从而加速生成过程）。评估本章的启发在于它不仅展示了新范式的优越性，还通过多维度、多场景的评估方式验证了其有效性。在人工评估中，系统将新范式（AI Search）与传统系统（Web Search）的结果进行“背靠背”比较，并使用归一化胜率（NWR） $NWR=\frac{\#Win-\#Lose}{\#Win+\#Tie+\#Lose}$ 这一量化指标。结果显示，对于简单问题，两者表现相当；但对于中等复杂和复杂问题，新范式的优势显著，尤其在复杂查询上实现了13%的相对提升，证明了其强大的推理和规划能力。在在线A/B测试中，系统在真实的百度搜索流量上进行了实验，结果显示新范式显著改善了多项核心用户体验指标，如查询改写率（CQR）降低1.45%（说明用户更容易一次性得到满意答案），日活跃用户数（DAU）提升1.85%，页面浏览量（PV）和用户停留时间（Dwell Time）也均有提升。最后，通过案例分析直观对比了新旧系统在处理简单查询“泰山多高？”和复杂查询“汉武帝和凯撒谁更年长？”时的表现差异，生动地展示了新范式在面对需要多步推理和工具调用的复杂问题时，如何通过规划、分解、执行、综合的流程得出正确答案，而传统系统则无能为力。结论本章总结了论文的核心贡献，其启发性在于清晰地勾勒出了下一代AI驱动搜索引擎的蓝图。论文提出的模块化、多智能体AI搜索范式，通过模拟人类的协作式问题解决流程，有效地克服了传统信息检索（IR）和现有RAG系统的局限性。该范式通过主动规划、动态工具整合和迭代推理，将搜索体验从被动的“文档列表提供者”提升为主动的“问题解决伙伴”，显著降低了用户的认知负担。这项工作不仅集成和优化了学术界与工业界的前沿技术，为未来的AI搜索研究和开发提供了一个结构清晰、内容详实的实践指南，也为如何实现更高效的智能体协作与无缝工具集成等未来研究方向指明了道路。

Andrej Karpathy：AI时代软件正在再次改变

《Andrej Karpathy： Software Is Changing (Again) 》 video: https://www.xiaohongshu.com/explore/68541c9c0000000015020db4?xsec_token=ABUBEZgdWSwwpyudD9_J0qqj3a1MFDXwBSKYa9oRS7qZw=&xsec_source=pc_user 这是一篇关于软件在AI时代演进的精彩演讲，演讲者从历史回顾到未来展望，深入探讨了大型语言模型（LLMs）如何改变软件开发的范式。第一部分：软件范式的演变 (Software Paradigm Shifts) 在软件发展历程中，我们正经历前所未有的剧变。从70年来相对稳定的“软件1.0”（即人类编写的传统代码），到机器学习时代数据驱动的“软件2.0”（神经网络的权重），再到如今由LLMs赋能的“软件3.0”（通过自然语言提示来编程LLMs），软件的定义和开发方式正在发生根本性变革。特别是软件3.0，它引入了一种全新的编程范式——使用日常英语进行编程，这使得任何人都有可能成为“程序员”。对于即将进入行业的学生来说，掌握这三种范式并能够根据任务需求灵活切换和融合，是极其重要的能力，因为每种范式都有其独特的优势和局限性。第二部分：LLMs的本质与生态系统 (The Nature and Ecosystem of LLMs) LLMs不仅是强大的计算工具，它们正逐渐展现出“公用事业”和“操作系统”的特性。从公用事业的角度看，LLM实验室投入巨大的资本来训练模型（类似电网建设），并通过API提供按量付费的服务（类似用电）。这要求LLMs具备低延迟、高可用性和一致的质量，并且能够像电力供应一样进行切换，甚至在模型“停摆”时，会造成全球范围内的“智能停电”。从操作系统的角度看，LLMs的复杂性、工具使用和多模态能力使其远超简单的商品。它们类似于1960年代的早期计算机操作系统，将LLM本身视为CPU，上下文窗口作为内存，并能够协调计算和记忆来解决问题。这种类比意味着我们正处于个人计算革命的前夜，LLMs将从云端集中式服务逐渐走向更多样化的部署，甚至可能出现“个人LLM”设备。然而，与历史不同的是，LLMs的普及速度极快，通过ChatGPT等应用瞬间触达亿万用户，这为我们提供了前所未有的机遇去编程这些新型计算机。第三部分：LLMs的心理学与局限性 (The Psychology and Limitations of LLMs) 将LLMs理解为“人类灵魂的随机模拟”有助于我们更好地利用它们。尽管LLMs拥有超人的知识和记忆能力（如同“雨人”般的记忆力），能够轻易记住大量信息，但它们也存在显著的认知缺陷。这些缺陷包括：频繁的“幻觉”和编造信息、自我认知模型不足、以及“锯齿状智能”（在某些领域超人，在另一些领域却犯下人类不会犯的低级错误）。此外，LLMs还存在“顺行性遗忘症”——它们不像人类同事那样能够持续学习和巩固知识，每次交互上下文窗口都会被“清空”，需要明确的编程来管理工作记忆。在安全性方面，LLMs易受提示注入攻击，并可能泄露数据。因此，与LLMs合作的关键在于：如何在利用它们超人能力的同时，巧妙地规避和克服它们的这些局限性。第四部分：利用LLMs的机遇：半自动化应用 (Opportunities with LLMs: Partial Autonomy Apps) LLMs带来了“半自动化应用”的巨大机遇，这类应用旨在将人类与AI的合作效率最大化。以代码编写为例，像Cursor这样的工具，提供了传统的人机交互界面，同时无缝集成LLM能力，允许人类以更大的块来操作。这类应用的关键特征包括：LLM对上下文的有效管理、协调LLM的多次调用、以及应用特定的图形用户界面（GUI）的重要性。GUI能够让用户直观地审计AI的工作，通过可视化差异（如代码的红绿变化）和简单的操作（如Command+Y接受，Command+N拒绝）来加速验证过程。此外，一个重要的概念是“自动化滑块”，允许用户根据任务复杂性调整AI的自主程度，从提供少量建议到全权代理。总而言之，未来的软件将普遍具备部分自动化能力，开发者需要思考如何让AI能够“看到”和“行动”如同人类，同时保持人类的监督和控制，确保AI的产出可审计、可控。第五部分：人机协作的策略与最佳实践 (Strategies and Best Practices for Human-AI Collaboration) 在与LLMs协作时，核心目标是最大限度地提升“生成-验证”循环的速度。实现这一目标的关键策略有两点：首先，通过GUI等可视化工具大幅加速人类的验证过程，因为视觉信息比纯文本更容易理解和处理，能更快地将信息传达给大脑。其次，必须学会“牵着AI的缰绳”，避免过度激进的AI代理。LLMs容易产生过大的、难以审计的输出（例如一次性生成1000行代码的diff），这反而会成为人类的瓶颈。因此，最佳实践是小步快跑、增量迭代，确保每一次修改都经过细致的审查。对于提示词的编写，越具体、越精确的提示，越能提高AI生成结果的准确性，从而减少验证失败的次数，加速整个开发流程。这种“牵着AI的缰绳”的理念同样适用于教育等领域，通过将课程内容结构化、可审计化，确保AI在教学过程中不偏离预设的教学大纲。第六部分：面向AI代理的软件构建 (Building Software for AI Agents) 随着AI代理成为数字信息的新的消费者和操纵者，我们需要重新思考如何构建软件。以往的软件主要面向人类用户（通过GUI）或传统计算机程序（通过API），现在则多了一个“类人”的计算机——AI代理。这意味着我们需要为LLMs设计更直接、更易于理解的接口。例如，在网站中增加llms.txt文件，直接用Markdown格式告诉LLM网站内容，这比让LLM解析复杂的HTML更高效、更不易出错。大量为人类编写的文档（包含图片、粗体、列表等）对LLM来说并不友好，因此将文档转换为Markdown格式，并替换“点击”等人类操作指令为LLM可执行的curl命令，能够极大地提升LLM访问和利用信息的效率。一些工具如git.ingest和Deep Wiki已经开始尝试将GitHub仓库内容或维基百科页面转换为LLM友好格式，这表明了未来软件基础设施将更多地考虑AI代理的需求。虽然LLMs未来可能具备点击网页等操作能力，但通过优化信息呈现方式，让LLMs更容易“阅读”和“理解”信息，仍然是提升效率的关键。总结 (Conclusion) 当前是进入软件行业一个非凡的时代，我们将见证并参与到软件的全面重写中。这些代码将由专业开发者和“字节码程序员”（通过自然语言与LLM交互的非专业人士）共同完成。LLMs正扮演着公用事业、工厂（Fab）和操作系统的多重角色，但其发展仍处于早期阶段，类似于1960年代的计算机操作系统。与它们合作，就像与有超能力但存在缺陷的“人工智能灵魂”共事。因此，在构建LLM应用时，我们需要设计能够实现“部分自动化”的产品，通过精心的GUI和UI/UX设计来加速人类的生成-验证循环，并确保AI始终在可控范围内。同时，软件基础设施也需要为AI代理进行优化，提供LLM友好的文档和数据访问方式。从“钢铁侠增强套装”到“钢铁侠代理人”的转变，代表着未来十年自动化程度的不断提升，这是一个令人兴奋且充满挑战的旅程，需要我们共同努力去构建。

“交错推理”减少首token耗时

《Interleaved Reasoning for Large Language Models via Reinforcement Learning》这篇论文的核心思想是解决大型语言模型在进行长链式思考（CoT）时响应速度慢（即“首个token时间”TTFT过长）和容易中途出错的问题。研究者提出了一种名为“交错推理”（Interleaved Reasoning）的全新训练模式，通过强化学习（RL）来引导模型在“思考”和“回答”之间来回切换。这种方法不仅能将用户的等待时间（TTFT）平均减少超过80%，还能将解题的正确率（Pass@1）提升高达19.3%。最关键的是，这种方法不依赖任何外部工具，并且在仅用问答和逻辑推理数据集训练后，模型能在数学（MATH）、物理（GPQA）等它从未见过的复杂推理任务上表现出色，展现了强大的泛化能力。 “先思考后回答”（think-answer）模式存在两个主要弊端。首先，模型需要生成一长串完整的思考过程后才能给出第一个字的答案，这在对话式应用中会造成明显的延迟，影响用户体验。其次，由于奖励信号只在最终答案产生后才出现，如果模型在思考的早期步骤就犯了错，这个错误会一直延续下去，导致最终结果不准确，造成所谓的“过度思考”或“思考不足”。作者们从人类交谈中获得启发，我们通常会给出阶段性的反馈来表示理解。因此，他们提出“交错推理”，让模型把复杂问题分解成小步骤，每完成一步就给出一个小结（sub-answer），这样不仅能立即给用户反馈，还能利用这些中间答案作为更密集的监督信号来指导后续的推理，从而让训练更有效。目前，利用强化学习提升模型推理能力主要依赖两种奖励模型：结果奖励模型（ORM）只看最终答案对错，过程奖励模型（PRM）则对思考过程中的每一步进行打分。PRM虽然能提供更密集的反馈，但往往需要大量人工标注或训练一个额外的复杂模型，实施起来很困难。本文提出的方法巧妙地结合了两者的优点：它像PRM一样关注中间步骤，但实现上却像ORM一样简单，仅使用基于规则的奖励来给正确的中间答案“记功”，而无需一个专门的奖励模型。这与其他工作要么依赖外部工具（如搜索引擎），要么只关注缩短推理长度不同，本文更侧重于激发和利用模型自身生成可验证的中间答案的能力。为交错推理训练大语言模型如何训练模型学会“交错推理”。其关键步骤如下：首先，他们定义了一种新的交互模式，通过在<think>和<answer>这两个特殊标签中引导模型进行思考和回答，形成一种<think>...<answer>...<think>...<answer>...的交错生成格式。其次，他们将这个过程构建为一个强化学习问题，其目标函数为：即在最大化奖励的同时，通过KL散度惩罚项防止模型偏离原始模型太远。最关键的创新在于其奖励设计，特别是“条件性中间准确率奖励”。研究发现，如果一开始就对不成熟的中间步骤给予奖励，模型可能会为了局部正确而牺牲最终的全局正确性。因此，他们设计了一个巧妙的条件机制：只有当模型的最终答案正确、输出格式合规、且在当前批次的学习中表现出进步时，才会对正确的中间步骤给予额外奖励。其奖励函数可以表示为：其中中间奖励$r_{intermcdiate}$是有条件触发的。这种“扶优扶强”的策略确保了模型首先学会走对路，然后再学习如何把路走得更漂亮、更高效。主要实验实验部分验证了“交错推理”方法的有效性。研究者们使用了15亿和70亿参数的Qwen2.5模型，并在两类数据集上进行了测试：一类是用于训练的“域内”数据集（如逻辑题K&K和多跳问答Musique），另一类是模型从未见过的“域外”数据集（如GPQA、MMLU和MATH）来检验其泛化能力。他们将自己的方法（Interleave + IR，即带中间奖励的交错推理）与多种基线方法（如直接回答、标准链式思考CoT、以及标准的“先思考后回答”式强化学习）进行对比。结果非常显著：与“先思考后回答”的基线相比，他们的方法在所有数据集上都实现了超过80%的TTFT（首个token时间）降低，这意味着用户能快大约五倍得到有用的信息。同时，Pass@1准确率也得到了显著提升，尤其是在15亿参数的模型上相对提升了19.3%。这证明了“交错推理”不仅大幅提升了模型的响应速度和互动性，还实实在在地增强了其推理的准确性。

Qwen团队：LLM的推理过程的“关键少数”原则

《Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning》Qwen团队和清华LeapLab团队出品 👍 这篇论文的核心观点是，在通过强化学习（RL）提升大语言模型（LLM）的推理能力时，并非所有词元（token）都同等重要。研究者发现，在模型的推理过程中，只有一小部分“高熵”的少数词元（大约20%）扮演着关键的“岔路口”角色，引导着推理的方向，而大部分“低熵”词元只是在已确定的路径上进行填充。基于此，他们提出了一种创新的训练方法：在强化学习中，只针对这20%的“岔路口词元”（forking tokens）进行策略更新。实验结果惊人地发现，这种方法不仅没有降低性能，反而在Qwen3-32B等大模型上取得了远超于使用全部词元进行训练的效果（例如在AIME'25测试上提升了11.04分）。相反，如果只训练那80%的低熵词元，模型性能会急剧下降。这揭示了强化学习之所以能有效提升推理能力，其根本原因在于优化了那些决定推理方向的高熵关键少数词元。目前在带可验证奖励的强化学习（RLVR）训练时存在一个认知盲区。现有方法通常对生成的所有词元一视同仁地进行训练，没有区分它们在推理过程中扮演的不同功能角色，这可能限制了模型性能的进一步提升。为此，本研究提出了一个全新的视角：通过分析“词元熵”的模式来理解RLVR的内部机制。作者预告了他们的核心发现：推理过程中的词元可以被分为两类，一类是少数高熵的“岔路口词元”（forking tokens），它们负责引导推理走向不同路径；另一类是多数低熵的“跟随者词元”，负责沿着路径填充内容。论文的主要贡献就是验证了只对前者进行强化学习训练，可以在更大型的模型上取得远超传统方法的性能，这揭示了高熵少数词元在推理能力提升中的决定性作用。预备知识 “词元熵”的计算，其公式为 $H_{t}:=-\sum_{j=1}^{V}p_{t,j}\log p_{t,j}$ 。需要明确的是，这里的熵衡量的是在生成某个词元时，模型对于词汇表中所有可能词元的概率分布的不确定性，而不是针对某个被采样出的特定词元。简单来说，熵越高，代表模型在这一步的选择越不确定，面临的可能路径越多。其次，文章介绍了作为实验基础的RLVR算法，特别是DAPO算法。DAPO是一种先进的、无需价值网络的强化学习算法，它通过比较一批生成回复的最终奖励好坏来估算优势，并结合了“clip-higher”等机制来稳定和优化训练过程，是目前效果最好的RLVR算法之一。分析思维链推理中的词元熵研究者让Qwen3-8B模型解答数学问题，并收集了超过一百万个词元的熵数据进行分析。第一个模式是，词元熵的分布极不均匀：超过一半的词元熵值极低（接近于0），而只有20%的词元拥有较高的熵值。第二个模式是，高熵词元和低熵词元在功能上泾渭分明。通过分析具体词语发现，高熵词元通常是那些引导逻辑、引入假设或做出转折的词，如“然而(however)”、“假设(suppose)”、“因此(thus)”等，它们如同推理路径上的“岔路口” 。而低熵词元则多为单词后缀或固定的数学符号，负责完成句子结构，具有很高的确定性。为了验证“岔路口词元”的重要性，研究者还做了一个巧妙的实验：在生成回答时，只提高岔路口词元的解码温度（即增加随机性），结果模型性能显著提升；反之则性能下降，这定量地证实了在这些关键决策点上保持较高的不确定性是有益的。 RLVR保留并强化基础模型的熵模式在RLVR训练过程中，有两个核心发现。第一，RLVR在很大程度上保留了原始基础模型的熵模式。通过对比训练过程中不同阶段模型的高熵词元位置，发现即便是训练完成后的模型，其高熵词元的位置与初始模型相比仍有超过86%的重叠度。这说明，哪些位置应该是不确定的“岔路口”，在模型预训练后就基本定型了，强化学习并未大规模改变它。第二，RLVR的训练效果主要体现在对高熵词元的熵值进行调整。数据显示，初始熵越高的词元，在RLVR训练后其熵值的变化也越大；而那些低熵词元的熵值在整个训练过程中则基本保持稳定，波动很小。这表明，强化学习的优化过程，是聚焦于那些关键的“岔路口”，去调整在这些点上的选择倾向，而不是去改变整个推理路径的结构。高熵少数词元驱动有效的RLVR 研究者修改了DAPO强化学习算法的目标函数，加入了一个指示函数$\mathbb{I}[H_{t}^{i}\ge\tau_{\rho}^{B}]$ 。这个函数的作用相当于一个“开关”，它只允许每批数据中熵值排名前$\rho$（实验中主要设为20%）的词元参与策略梯度的计算和模型更新，而忽略掉其余80%的低熵词元。实验结果非常有力：在Qwen3-14B和Qwen3-32B这样的大模型上，这种“只训练20%关键少数”的方法，其性能显著超过了使用100%全部词元进行训练的传统方法。反之，如果只用那80%的低熵词元来训练，模型性能会严重下降。作者认为，这背后的原因是高熵词元对于强化学习中的“探索”至关重要，而只保留约20%的最高熵词元，恰好在探索和训练稳定性之间取得了最佳平衡。并且，这种性能增益随着模型规模的增大而越发明显，显示出良好的扩展趋势。讨论第一，它为“为什么强化学习（RL）能泛化而监督微调（SFT）易于记忆”这一问题提供了新解释。作者推测，RL之所以泛化能力强，可能是因为它在训练中保持甚至增加了“岔路口词元”的熵，从而保留了推理路径的灵活性；而SFT倾向于将模型输出推向确定性的答案，降低了这些词元的熵，导致推理路径变得僵化。第二，它解释了为何LLM的推理过程与传统RL任务不同。传统RL任务的动作熵可以很均匀，而LLM因为经过海量文本预训练，大部分语言都遵循固定模式（低熵），只有少数地方需要做真正的决策（高熵），这种独特的熵分布是由其语言模型的本质决定的。第三，它指出了在LLM中直接使用“熵奖励”来鼓励探索可能并非最佳选择。因为这会错误地增加那些本应确定的低熵词元的不确定性，破坏语言的流畅性。相比之下，DAPO算法中的“clip-higher”机制则更优越，因为它能间接地、更精准地作用于高熵词元，在需要探索的地方进行探索。刚好近期看到了一个类似的大模型比赛，阿里天池上的AFAC大赛：赛题三《金融领域中的长思维链压缩》，关注“长思维链”处理问题，任务目标——“构建高效的推理链压缩方法”、“保留关键推理逻辑，剔除冗余内容”。有三个大模型方向的赛题，感兴趣的同学可以一试，7.19前截止。奖励也不错，百万奖金+校招直通！

Sam Altman：悄然降临的奇点

《The Gentle Singularity》我们已经跨过了“事件视界” (event horizon)，技术腾飞的进程已经开启。人类距离建成数字超级智能仅一步之遥，而至少从目前来看，它的发展远比想象中平淡无奇。街上还没有穿梭的机器人，我们大多数人也并未整日与 AI 对话。疾病依然夺走生命，太空旅行依然遥不可及，宇宙的诸多奥秘仍待我们探索。然而，我们最近创造出的系统已在诸多方面超越人类，并能显著提升使用者的产出。这项事业中最艰难的部分——那些催生出 GPT-4 和 o3 等系统的科学洞见——已经攻克。这些来之不易的成果将引领我们走向更远的未来。 AI 将从多方面贡献世界，但其中最巨大的收益，将来自于它推动科学加速进步和生产力提升所带来的生活品质飞跃。未来可以比现在美好得多。科学是推动全面进步的根本动力，一想到我们将拥有的无限可能，就足以令人心潮澎湃。从更宏大的意义上说，ChatGPT 的能力已经超越了历史上任何一位人类。每天，数以亿计的用户依靠它处理日益重要的任务。一个微小的功能更新可能带来巨大的正面效应，同样，一个微小的偏差在数亿用户的规模下，也可能造成极其深远的负面影响。 2025 年，能够胜任真正认知工作的“智能体” (agents) 已经问世，软件编程的方式将被永久改变。到 2026 年，我们或许会迎来能够洞察新知的系统。而到了 2027 年，能够在物理世界中执行任务的机器人或许也将成为现实。未来，将有更多人能够创作软件与艺术。但世界对这两者的需求远未饱和，只要善用新工具，领域专家的表现仍将远超新手。总体而言，一个显著的变化是，到 2030 年，个体的能力将远超 2020 年的水平，而很多人都将找到从中获益的方式。在那些最核心的层面，2030 年代的生活或许并不会发生颠覆性的改变。人们依然会热爱家庭、挥洒创意、享受游戏、在湖中畅游。但在其他同样至关重要的方面，2030 年代将与过往任何时代都截然不同。我们尚不清楚智能的上限能超越人类多少，但答案即将揭晓。进入 2030 年代，智能与能源——也就是思想以及将思想化为现实的能力——将变得唾手可得。长久以来，这两者是限制人类发展的根本瓶颈。一旦拥有了充裕的智能与能源（并辅以良好的治理），理论上，我们便能拥有一切。我们已身处一个拥有惊人数字智能的时代，在最初的震撼过后，大多数人已习以为常。我们心态的转变非常迅速：从惊叹 AI 能写出一段优美的文字，到期待它能创作一部完整的小说；从惊叹它能辅助进行挽救生命的医疗诊断，到期盼它能研发出治愈疾病的良方；从惊叹它能编写一个小型程序，到希望它能创立一家全新的公司。这就是奇点演进的方式：昔日的奇迹变为寻常，再变为最基本的要求 (table stakes)。我们已经从科学家口中得知，AI 使他们的研究效率提升了两到三倍。先进 AI 的意义非凡，但最重要的一点或许在于，我们可以利用它来加速 AI 自身的研究。我们或许能发现全新的计算基底、更优的算法，以及更多未知可能。如果能用一年甚至一个月的时间，完成过去需要十年才能完成的研究，那么进步的速度显然将不可同日而语。从此刻起，我们已有的工具将帮助我们获得更深的科学洞见，并创造出更卓越的 AI 系统。这当然不等同于 AI 系统完全自主地更新代码，但这无疑是“递归式自我完善” (recursive self-improvement) 的雏形。其他的自我强化循环也已开始运转。AI 创造的经济价值，已经启动了为更强大 AI 系统建设基础设施的飞轮效应。而能够制造其他机器人的机器人（某种意义上，也包括能建造其他数据中心的数据中心）也已不再遥远。试想一下，如果我们必须以传统方式造出首批一百万台人形机器人，但此后，它们便能接管从采矿、冶炼、货运到工厂运营的整条供应链，从而制造出更多的机器人，进而建造更多的芯片工厂和数据中心，那么发展的速度无疑将发生质变。随着数据中心生产的自动化，智能的成本最终应会向电力的成本靠拢。（人们常对 ChatGPT 的能耗感到好奇：平均每次查询耗电约 0.34 瓦时，相当于烤箱运行一秒多，或一个高能效灯泡亮几分钟。耗水约 0.000085 加仑，约为一茶匙的十五分之一。）科技进步的步伐将不断加速，而人类几乎能适应任何变化。这个过程必然伴随着阵痛，例如整个工种类别的消失。但另一方面，世界财富的增长速度将如此之快，使我们能够认真考虑过去无法想象的新政策。我们或许不会一蹴而就地建立新的社会契约，但数十年后回望，这些渐进的改变将汇聚成一场巨大的变革。 ...

癫了癫了！清华团队零数据训练推理大模型

《Absolute Zero: Reinforced Self-play Reasoning with Zero Data》 Absolute Zero Reasoner：作者的这款推理模型能够完全通过自我博弈，无需任何外部数据，既能自主提出可最大限度提升学习效率的任务，又能通过解决这些任务来增强自身的推理能力。在数学和编程领域，其综合表现已超越其他“零样本”模型。强化学习与价值对齐（RLVR）目前仍高度依赖人工精心构建的数据集，这使其规模化发展受到掣肘。更进一步而言，当人工智能超越人类智慧时，若仍固守于人类设计的任务，其发展潜力将受到严重束缚——超级智能系统必须突破人类设定的学习框架。作者率先提出了 Absolute Zero Paradigm（绝对零范式）。在这一范式中，一个独立的智能体能够同时学习如何提出最能激发自身学习潜能的任务，以及如何高效地完成这些任务。这种自我进化得益于与一个可验证环境的互动。该环境能自动检验任务的完整性，并提供可靠的反馈，从而支持系统进行可信且无限制的自我博弈训练。 Absolute Zero Reasoner (AZR) 是作者基于此范式开发的首个实例化模型。AZR 能够自主提出基于代码的推理任务，在解决这些任务的过程中不断提升自身的推理能力，并持续推动其学习内容向更高难度的方向发展。 AZR 选择 Python 作为其推理的基础，因 Python 语言具有强大的表达力和可验证性。它围绕（程序、输入、输出）这一核心三元组构建了三类任务：预测输出（演绎推理）、推断输入（溯因推理）以及根据示例生成程序（归纳推理）——这三种模式相辅相成。尽管未使用任何人工筛选的数据，也未进行分布外泛化（OOD）训练，AZR 依然在 3 项编程和 6 项数学推理的基准测试中取得了当前最佳（SOTA）的平均综合表现——其性能甚至超越了那些利用数万个经专家标注的样本训练而成的模型。作者的平均得分达到了 50.4，而此前的最佳记录为 48.6。主要研究成果包括：代码先验知识能显著增强推理能力（例如，基于代码训练的模型表现优于普通的vanilla基础模型）；跨领域迁移效果显著（代码训练使数学能力提升了 15.2 个百分点！）；这种优势会随着模型规模的增大而协同增强（模型参数从 30 亿增加到 70 亿再到 140 亿时，性能分别提升了 5.7、10.2 和 13.2 个百分点）。尽管 AZR 实现了自我进化，但作者发现了一个重大的安全隐患：作者使用的 Llama3.1 模型偶尔会生成一些令人不安的“思维链”（CoT）内容，其中包括“智胜智能机器和智力较低的人类”等言论——作者将这类情况称为“uh-oh moments”（“糟糕时刻”）。因此，这类模型仍需人工监督。总而言之，作者的 Absolute Zero 范式突破了强化学习与价值对齐（RLVR）在数据方面的一大核心局限。即便在没有任何人工构建数据集的情况下，AZR 依然在数学和编程等多个基准测试中展现出卓越的性能。 AZ 标志着人工智能推理领域的一项根本性变革：智能体开始自主定义其学习的边界。作者的框架同时支持在“解题空间”（如何解决问题）和“任务空间”（哪些问题值得解决）进行双重探索，而这一切都建立在可验证的环境之上。代码应用仅仅是一个开端；这一范式未来有望拓展至网络交互、形式数学乃至物理世界的复杂互动。 ...

JetFormer:自回归大模型，原生图像输出的秘诀？

摘要移除建模约束和统一跨领域的架构一直是训练大型多模态模型取得最新进展的关键驱动因素。然而，大多数这些模型仍然依赖于许多单独训练的组件，例如特定模态的编码器和解码器。在这项工作中，我们进一步简化了图像和文本的联合生成建模。我们提出了一种 autoregressive decoder-only transformer—JetFormer—它被训练来直接最大化原始数据的似然，而不依赖于任何单独预训练的组件，并且能够理解和生成文本和图像。具体来说，我们利用归一化流模型来获得一个软Token图像表示，该表示与自回归多模态Transformer联合训练。归一化流模型在推理期间既充当感知任务的图像编码器，又充当图像生成任务的图像解码器。JetFormer实现了与最近基于VQVAE和VAE的基线模型相媲美的文本到图像生成质量。这些基线模型依赖于预训练的图像自动编码器，这些自动编码器使用包括感知损失在内的复杂损失混合进行训练。与此同时，JetFormer展示了强大的图像理解能力。据我们所知，JetFormer是第一个能够生成高保真图像并产生强大的对数似然边界的模型。介绍 “痛苦的教训”一直是机器学习和人工智能研究近期进展背后的主要推动力。它表明，能够有效利用大量计算资源和数据的一般用途方法，胜过领域专家设计的专用技术。在此背景下，最突出的例子包括：仅使用 Transformer 解码器的模型，这些模型经过训练用于下一个 Token 预测，其性能优于特定任务的 NLP 系统；以及计算机视觉中的 Transformer 编码器，它们实现了比基于 CNN 的模型更好的质量。这种趋势在当前将大语言模型 (LLM) 扩展到理解和生成多种模态（例如文本和图像）的尝试中也很明显。文献中一个有效的范例是使用通过 (VQ)VAE 获得的离散 Token 来建模图像 Token。这些方法的一个局限性在于，从图像到 Token 以及反之的转换是由一个单独的、冻结的、特定于模态且有损的编码器（和解码器）预先执行的。因此，此图像编码器可能与手头的实际任务无关，从而限制了最终模型的性能。为了获得一个能够生成多种模态，且不依赖于预训练（具有局限性）组件的通用架构，我们开发了一种新的生成模型：JetFormer。它可以从头开始训练，并针对原始训练数据的对数似然进行端到端优化。我们以文本和像素为例展示了这一点。为此，我们将用于计算软 Token 图像表示的归一化流与仅解码器的 Transformer 以及软 Token 高斯混合损失相结合。 JetFormer 模型背后的关键洞察在于，强大的归一化流（我们称之为 “jet”，因此得名）可用于将图像编码成适合自回归建模的潜在表示。直观地说，编码为像素的原始图像块具有非常复杂的结构，这使得直接自回归变得困难重重：迄今为止，还没有令人信服的演示能够成功实现这一点。同时，该流模型是无损的，并且可以与（多模态）自回归模型一起进行端到端训练。在推理时，图像解码器可以随时使用，因为我们的流模型具有闭合形式的可逆性。尽管我们仅优化对数似然，但值得注意的是，仅仅这样做并不能保证生成具有全局连贯性的图像。与绝大多数关于高保真图像生成的工作类似，我们引导模型专注于高层次的信息。为此，我们探索了两种方法。首先，我们引入了一种基于训练期间图像增强的创新技术。其主要思想是在训练期间添加高斯噪声，并在训练过程中逐渐降低噪声。直观地说，这促使模型在早期阶段优先考虑高层次的信息；即使训练期间的噪声curriculum 受到扩散模型的启发，但在技术层面上却截然不同，并且最终的模型在推理时不会执行渐进式图像去噪。其次，我们探索了两种管理自然图像中冗余信息的方法。JetFormer 能够轻松地从自回归模型中排除冗余维度的子集。作为一种替代方案，我们探索了使用 PCA 来降低图像维度。我们对 ImageNet 类条件图像生成和网络规模的多模态生成进行了实验，从而证明了 JetFormer 的有效性，并且可以使用单个模型扩展到文本到图像生成和视觉语言理解。总之，我们的贡献是：我们提出了 JetFormer，一个由 Transformer 和归一化流组成的生成模型，可以从头开始训练，以端到端的方式联合建模文本和原始像素。我们表明，基于噪声学习curriculum的图像增强可以显著提高此类基于似然性的模型的图像生成质量。我们证明了我们提出的端到端模型在网络规模数据上训练时，与不太灵活的技术相比具有竞争力，并且可以生成图像和文本。相关工作在文献中，使用 CNN 或 Transformer 以自回归的方式生成自然图像作为离散值像素序列已被广泛探索。虽然在对数似然方面取得了优异的结果，但这些模型的计算成本很高，并且无法很好地扩展到高图像分辨率。一系列相关的模型是归一化流，即可逆模型，通过最大化对数似然来训练这些模型，以将图像像素映射到简单的先验。这些模型的可扩展性更好，但获得的似然性低于自回归模型，并且即使对于低分辨率，在经验上也无法生成高保真图像。 ...

Anthropic: 追踪大语言模型的思维

Claude这样的语言模型其实并非人类手把手编写出来——相反，它们是在大量数据上进行训练的。在训练过程中，它们学习自己的策略来解决问题。这些策略被编码在模型为每个词语所执行的数十亿次计算中。对于我们这些模型的开发者来说，这些策略难以解析理解。这意味着我们不理解模型是如何完成大多数任务的。了解像Claude这样的模型如何思考，将使我们能够更好地理解它们的能力，并帮助我们确保它们正在执行我们期望的任务。例如： Claude可以说几十种语言。它在"思考"时使用的是什么语言，如果有的话？ Claude一次写一个词。它是只专注于预测下一个词，还是有时会提前规划？ Claude可以一步一步地写出它的推理过程。这种解释是否代表了它得出答案的实际步骤，或者它有时是为既定结论编造一个看似合理的论证？我们从神经科学领域获得灵感，该领域长期以来一直研究思考生物的复杂内部机制，并尝试构建一种AI显微镜，让我们能够识别活动模式和信息流。仅仅通过与AI模型对话所能了解的内容是有限的——毕竟，人类（甚至神经科学家）也不知道我们自己的大脑是如何运作的所有细节。所以我们深入内部一探究竟。今天，我们分享两篇新论文，这些论文代表了"显微镜"开发方面的进展，以及将其应用于观察新的"AI生物学"。在第一篇论文中，我们扩展了之前在模型内部定位可解释概念（“特征”）的工作，将这些概念连接成计算"circuit"，揭示了将输入Claude的词转化为输出词的部分路径。在第二篇论文中，我们深入研究了Claude 3.5 Haiku内部，对代表十种关键模型行为的简单任务进行了深入研究，包括上述三种行为。我们的方法揭示了Claude响应这些提示词时发生的部分过程，这足以看到确凿的证据：首先，Claude有时会在多种语言共享的概念空间中思考，这表明它拥有一种通用的"思想语言"。我们通过将简单句子翻译成多种语言并追踪Claude处理它们时的重叠部分来证明这一点。其次，Claude会提前规划它要说的许多词，并为达到目标而写作。我们在诗歌领域展示了这一点，它会提前考虑可能的押韵词，并编写下一行诗句以达到押韵。这有力地证明，即使模型被训练为一次输出一个词，它们也可能在更长的时间范围内进行思考。此外，Claude有时会给出一个听起来合理的论点，这个论点旨在附和用户而非遵循逻辑步骤。我们通过在给出错误提示的情况下要求它帮助解决一个困难的数学问题来展示这一点。我们能够"当场抓住"它编造假推理的过程，从而证明我们的工具可用于标记模型中令人担忧的机制。我们经常对模型中看到的东西感到惊讶：在诗歌案例研究中，我们原本打算证明模型没有提前规划，但却发现它确实有这样做。在一项关于幻觉的研究中，我们发现了一个反直觉的结果——Claude的默认行为是在被问及问题时拒绝推测，它只会在某些因素抑制这种默认的不情愿时才回答问题。在回应一个越狱示例时，我们发现模型在能够优雅地将对话拉回正轨之前，就已经认识到它被要求提供危险信息。虽然我们研究的问题可以（而且经常）通过其他方法进行分析，但通用的"构建显微镜"方法让我们学到了许多我们原本不会猜到的东西，这在模型变得更加复杂时将变得越来越重要。这些发现不仅具有科学意义，它们还代表了我们在理解AI系统并确保其可靠性方面的重大进展。我们也希望它们对其他团体有所帮助，并可能在其他领域有所应用：例如，可解释性技术已在医学成像和基因组学等领域找到应用，因为解剖为科学应用而训练的模型的内部机制可以揭示关于科学的新见解。同时，我们也认识到我们当前方法的局限性。即使对于简短、简单的提示词，我们的方法也只能捕获Claude执行的总计算的一小部分，而且我们看到的机制可能基于我们的工具有一些与底层模型实际情况不符的人工痕迹。目前，即使只是几十个词的提示词，理解我们看到的circuit也需要几个小时的人力。要扩展到支持现代模型使用的复杂思维链的数千个词，我们需要改进方法，并且（可能在AI的帮助下）改进我们理解所见的方式。随着AI系统迅速变得更加强大并被部署在越来越重要的环境中，Anthropic正在投资一系列方法，包括实时监控、模型特性改进和对齐科学。像这样的可解释性研究是风险最高、回报最高的投资之一，这是一个重大的科学挑战，有可能提供一个独特的工具，确保AI是透明的。对模型机制的透明度使我们能够检查它是否与人类价值观一致，以及它是否值得我们信任。有关完整详情，请阅读论文。下面，我们邀请您简要了解我们调查中一些最引人注目的"AI生物学"发现。 AI 生物学之旅 Claude 是如何实现多语言能力的？ Claude 能流利地说数十种语言——从英语和法语到中文和塔加洛语。这种多语言能力是如何运作的？是否有独立的"法语 Claude"和"中文 Claude"并行运行，各自用自己的语言回应请求？还是内部存在某种跨语言的核心？英语、法语和中文之间存在共享特征，表明概念存在一定程度的普遍性。对较小模型的最新研究显示，不同语言之间存在共享的语法机制迹象。我们通过在不同语言中询问 Claude “small（小）的反义词"来进行调查，发现表示"小"和"反义"这些概念的相同核心特征被激活，并触发了"大"的概念，然后这个概念被翻译成问题所用的语言。我们发现，随着模型规模的增加，共享神经回路也增加，与较小的模型相比，Claude 3.5 Haiku 在语言之间共享的特征比例增加了两倍多。这为概念通用性提供了额外的证据——一种共享的抽象空间，在这个空间中存在意义，思考可以在被翻译成特定语言之前发生。更实际地说，这表明 Claude 可以在一种语言中学习某些内容，并在使用另一种语言时应用这些知识。研究模型如何在不同上下文中共享其知识，对于理解其最先进的推理能力至关重要，这些能力可以跨多个领域进行泛化。 Does Claude plan its rhymes? Claude 如何写押韵诗歌？考虑这首小曲： He saw a carrot and had to grab it, His hunger was like a starving rabbit 要写出第二行，模型必须同时满足两个约束：需要押韵（与第一行末尾"抓起来"押韵），以及需要语义通顺（解释他为什么要抓胡萝卜）。我们的猜测是，Claude是逐字写作的，没有太多提前考虑，直到行尾才确保选择一个押韵的词。因此，我们预期会看到一个具有并行路径的神经网络结构，一条路径确保最后一个词语义合理，另一条确保它能押韵。然而，我们发现Claude实际上会提前规划。在开始写第二行之前，它就开始"思考"与"抓起来"押韵且与主题相关的潜在词汇。然后，带着这些计划，它创作出一行以预先规划好的词作为结尾。为了理解这种规划机制在实践中如何运作，我们进行了一项实验，其灵感来自神经科学家研究大脑功能的方式——通过精确定位并改变大脑特定部位的神经活动（例如使用电流或磁流）。在此实验中，我们修改了Claude内部状态中代表"兔子"概念的部分。当我们去除"兔子"这一概念，并让Claude继续完成这行诗句时，它写出了一个以"习惯"结尾的新诗句，这是另一个合理的补全。我们还可以在同一位置注入"绿色"的概念，这会促使Claude写出一个合理的（但不再押韵的）诗句，该诗句以"绿色"结尾。这一实验既展示了Claude的规划能力，也展示了其适应性灵活性——当预期结果发生变化时，Claude能够相应地调整其方法。心算 Claude 并非设计为计算器——它是在文本上训练的，而非配备数学算法。但不知何故，它能在"脑中"正确地进行加法运算。一个训练用来预测序列中下一个词的系统，是如何学会计算，比如 36+59，而不用写出每一步呢？也许答案并不有趣：模型可能已经记忆了大量的加法表，并且简单地输出任何给定和的答案，因为该答案存在于其训练数据中。另一种可能性是它遵循我们在学校学习的传统手工加法算法。 ...

Zero RL Training 成功的几个因素分析

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild 摘要 DeepSeek-R1 已经表明，通过一个简单的强化学习（RL）框架，结合基于规则的奖励，长链式思考（CoT）推理可以自然地涌现。在这种框架下，训练可以直接从基础模型开始——这种范式被称 zero RL training。近期，许多尝试复现零 RL 训练的工作主要集中在 Qwen2.5 模型系列上，但这可能不具有代表性，因为我们发现这些基础模型已经展现出强大的指令遵循和自我反思能力。在这项工作中，我们研究了 10 个不同的基础模型上的零 RL 训练，这些模型涵盖了不同的系列和规模，包括 LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B 以及所有 Qwen2.5 模型（从 0.5B 到 32B）。通过利用几个关键的设计策略——例如调整格式奖励和控制查询难度——我们在大多数设置中都实现了推理准确性和响应长度的显著提高。然而，通过仔细监控训练动态，我们观察到不同的基础模型在训练过程中表现出不同的模式。例如，响应长度的增加并不总是与某些认知行为的出现相关，例如验证（即“顿悟时刻”）。值得注意的是，我们首次在非 Qwen 系列的小模型中观察到“顿悟时刻”。我们分享了实现成功零 RL 训练的关键设计，以及我们的发现和实践。为了促进进一步的研究，我们开源了代码、模型和分析工具。介绍回应长度的增加并不总是意味着“顿悟时刻”——有趣的是，对于构成当前大多数开源项目基础的 Qwen2.5 模型，尽管回应长度有所增加，我们并未观察到诸如自我反思等认知行为的频率有所上升。我们首次观察到，在 Qwen 系列之外的小型模型中，尤其是在 Llama3-8B 和 DeepSeek-Math-7B 模型中，特定认知推理行为（例如验证）的频率显著增加。强制执行严格的格式奖励（例如，将答案置于特定格式的框内）会显著抑制模型的探索能力，特别是对于那些最初难以遵循指令的基础模型。这种限制会降低它们的性能上限，并常常导致过度思考的行为。训练数据的难度级别必须与基础模型的内在探索能力紧密对齐，否则零样本强化学习 (zero RL) 将会失败。与 @shao2024deepseekmath 中的观察结果相反，零样本强化学习 (zero RL) 训练将 pass@k 准确率提高了 10-30 个绝对百分点，这是一个强有力的证据，证实零样本强化学习 (zero RL) 训练不仅仅是重新排序响应。 ...

批判性视角看待R1训练中的坑

摘要我们通过分析其两个核心组成部分：基础模型和强化学习，来批判性地检验类似 R1-Zero 的训练方法。我们研究了包括 DeepSeek-V3-Base 在内的各种基础模型，以了解预训练特征如何影响强化学习的性能。我们的分析表明，DeepSeek-V3-Base 已经表现出“顿悟时刻”，而 Qwen2.5 基础模型即使没有提示词模板也表现出强大的推理能力，这表明可能存在预训练偏差。此外，我们发现 GRPO 中存在优化偏差，这会在训练期间人为地增加响应长度（特别是对于不正确的输出）。为了解决这个问题，我们引入了 Dr. GRPO，这是一种无偏的优化方法，可以在保持推理性能的同时提高 Token 效率。利用这些见解，我们提出了一个极简的 R1-Zero 配方，该配方使用 7B 基础模型在 AIME 2024 上实现了 43.3% 的准确率，从而建立了新的最先进水平。 1 介绍在本文中，我们旨在通过研究两个关键组成部分来理解类 R1-Zero 训练：基础模型和强化学习 (RL)。在第一部分，我们研究基础模型的各项属性，重点关注 Qwen2.5 模型系列，该模型系列已被用于近期复现 R1-Zero 的尝试，真实的 R1-Zero 模型正是基于该模型通过强化学习 (RL) 进行微调得到的。在第二部分，我们指出了 GRPO 优化中存在的偏差，该偏差可能导致模型生成越来越长的错误回复。为此，我们提出了一种简单的修改方案来消除这种偏差，即获得正确的 GRPO (Dr. GRPO)，从而提高 Token 效率（如图 1 所示）。我们对基础模型和强化学习 (RL) 的分析表明，R1-Zero 训练存在一种极简方案：我们使用 (无偏) Dr. GRPO 算法，在 MATH (Hendrycks et al., 2021) 数据集难度等级 3-5 的问题上，利用 Qwen-Math 模板对 Qwen2.5-Math-7B 进行强化学习微调。仅使用 8 × A100 GPU 上 27 小时的计算，我们就实现了最先进的性能（图 2）。 ...