首发于小红书,欢迎关注
小红书,知乎,公众号:一只小茄墩
百度:多智能体AI搜索范式
《Towards AI Search Paradigm》 本文提出了一个“AI搜索范式”,区别于传统搜索引擎和现有检索增强生成(RAG)系统的工作模式。传统的搜索系统像一条直线流水线,按部就班地检索、排序、生成答案,难以处理需要多步骤推理的复杂问题。这篇论文提出的新范式则像一个动态协作的专家团队,由四个核心的LLM(大语言模型)智能体组成:Master(大师)、Planner(规划师)、Executor(执行器)和Writer(作家)。Master负责分析用户问题的复杂性并组建最合适的智能体团队;Planner负责将复杂问题分解成一个可执行的计划图;Executor负责调用各种工具(如搜索、计算)来完成具体的子任务;Writer则负责综合所有结果,生成一个全面、连贯的答案。这种架构的精髓在于其动态性和协作性,能够像人一样思考、规划并解决问题,而不是机械地匹配和生成。 系统概述 通过一个具体的例子“汉武帝和凯撒谁更年长,年长多少岁?”生动地展示了新范式的工作流程,并与传统RAG系统进行了对比,其启发性在于揭示了“规划”在信息处理中的重要性。该系统会根据问题的复杂程度,选择三种不同的团队配置:对于“汉武帝叫什么名字”这类简单问题,采用**“作家-唯一(Writer-Only)”配置,直接生成答案;对于“今天北京天气适合出门吗”这类需要外部信息但无需复杂推理的问题,采用“执行器-包含(Executor-Inclusive)”配置,由执行器调用天气工具后,作家再整合信息;而对于汉武帝与凯撒年龄比较的复杂问题,则启动最高级的“规划师-增强(Planner-Enhanced)”**配置。在这个模式下,Master首先识别出问题的复杂性,然后委派Planner。 Planner会将问题分解为三个子任务:1. 搜索汉武帝的生卒年份;2. 搜索凯撒的生卒年份;3. 计算年龄差。这个过程被构建成一个有向无环图(DAG),清晰地表达了任务间的依赖关系。随后,Executor按图索骥,调用搜索和计算工具完成任务,最后由Writer综合信息,生成最终答案。这个流程与传统RAG系统一次性检索或简单的“思考-行动”循环相比,展现了更强的逻辑性、鲁棒性和解决复杂问题的能力。 任务规划师 任务规划师是整个系统的大脑,本章详细阐述了它如何解决“规划什么”和“用什么规划”的核心问题。首先,为了解决不同工具API接口标准不一的问题,系统引入了模型-上下文协议(MCP),这是一个统一的、中立的工具接口标准,让所有工具都能被AI无缝理解和调用。其次,面对海量工具,Planner并非全部加载,而是引入了动态能力边界(Dynamic Capability Boundary)的概念。具体做法是:先通过一个名为DRAFT的自动化框架,通过“经验收集-经验学习-文档重写”的循环,迭代优化工具的API文档,使其对LLM更友好;然后,利用k-means++算法对工具进行功能聚类,形成“工具包”以备不时之需(如同一个工具坏了,可以从同类工具包中找替代品);最后,通过一个名为COLT的先进检索方法,该方法不仅看重查询与工具的语义相似性,更通过图学习捕捉工具间的“协作关系”(例如,解决一个复杂问题需要计算器、汇率查询、股价查询三个工具协同工作),从而为当前任务检索出一个功能完备的工具集。在拥有了合适的工具后,Planner会利用思维链和结构化草图提示策略,将用户的复杂查询生成一个基于DAG(有向无环图)的全局任务计划。这个计划是机器可读、可验证的,并且在执行过程中,Master会持续监控,一旦发现执行失败或结果不完整,便会指导Planner进行反思和重新规划(Re-Action)。最后,为了让Planner变得更聪明,系统还采用强化学习(GRPO算法)对其进行优化,其奖励函数综合考虑了最终答案的正确性、用户反馈、输出格式和中间步骤的执行成功率,通过一个全面的奖励信号$\mathcal{R}_{All}=\mathcal{R}_{Ansuver}+\mathcal{R}_{Feedback}+\mathcal{R}_{Format}+\mathcal{R}_{Execution}$来指导Planner学习更优的规划策略。 任务执行器 (Task Executor) 它将传统搜索中“服务于人”的排序目标,转变为“服务于LLM”的召回目标。也就是说,执行器的首要任务不再是给用户提供一个最佳的点击链接列表,而是为后续的Writer(作家)智能体提供一套全面、高质量、让LLM能“读懂”并用于生成答案的参考文档。为了实现LLM偏好对齐(LLM Preference Alignment),执行器采取了四大关键措施:1. LLM标注:利用RankGPT(通过滑动窗口处理长列表)和TourRank(模拟体育赛事中的“锦标赛”机制)等高效的列表排序方法,让LLM来为文档排序,生成高质量的训练数据。2. 参考选择:通过分析LLM在生成答案时实际引用了哪些文档,反过来优化检索策略,从而在未来更倾向于检索这类高质量的文档。3. 生成奖励:这是一种更直接的对齐方式,通过强化学习,让排序器(Ranker)尝试不同的排序策略(如“时效性优先”或“权威性优先”),然后根据生成器(Generator)产出答案的好坏给予奖励或惩罚,直接以最终答案质量为导向来优化排序。4. LLM排序的蒸馏:将一个强大的、但推理成本高昂的“教师”LLM的复杂排序能力,通过RankNet损失函$\mathcal{L}=\sum_{i=1}^{n}\sum_{j=1}^{n}1_{r_{i}^{\prime}<\sigma_{j}^{\prime}}log(1+exp(s_{i}^{S}-s_{j}^{S}))$,“蒸馏”到一个轻量级的、适合在线部署的“学生”排序模型中。此外,为了应对AI搜索中海量子查询带来的性能压力,本章还提出了构建轻量级系统的思路,即用一个统一的LLM模型替代传统“倒排索引+向量检索+精排”的复杂多阶段架构,并利用LLM增强特征,让LLM直接从文本和图像中提取更深层次的语义特征(如权威性、时效性),从而极大地简化了系统并提升了效果。 **基于LLM的生成 ** 本章聚焦于Writer(作家)智能体,其核心启发在于如何确保最终生成的答案既鲁棒(不怕干扰)、又对齐(符合用户期望),并且能从用户行为中持续学习。关键做法如下:1. 构建鲁棒的RAG系统:为了应对检索器召回的文档中可能存在的噪声和错误,论文提出了一种名为ATM的对抗性训练方法。该方法引入一个“攻击者(Attacker)”智能体,专门负责制造假知识或打乱文档顺序来“攻击”输入,而“生成器(Generator)”,即Writer,则被训练来抵御这种攻击,从而增强其在嘈杂环境下的表现。这个过程通过一个创新的MITO损失函数$\mathcal{L}_{M\Gamma TO}=\mathcal{L}_{SFT}(a|q,D^{\prime})+\alpha\mathcal{L}_{KL}$进行迭代优化。2. RAG任务对齐:为了让生成结果符合用户的三大核心需求——信息丰富度、鲁棒性和引用质量,论文提出了PA-RAG技术。它通过一个两阶段过程实现对齐:首先,通过指令微调让模型具备基础的利用和引用文档的能力;然后,通过直接偏好优化(DPO)技术,按照“信息丰富度 -> 鲁棒性 -> 引用质量”这个由易到难的顺序,对专门构建的偏好数据进行分阶段、课程学习式的优化。3. 利用用户反馈进行优化:为了让模型持续进步,论文提出了RLHB(基于人类行为的强化学习)方法。它不再依赖昂贵的人工标注,而是直接将在线用户的真实行为(如点击、点赞、页面停留时间)转化为奖励信号,通过一个判别器和生成器的对抗训练机制,让Writer的生成策略直接对齐真实用户的偏好。4. 多智能体联合优化:为了解决RAG系统中各模块(规划器、执行器、作家)单独优化可能导致“局部最优,全局不优”的问题,论文提出了MMOA-RAG框架。该框架将整个RAG流程视为一个多智能体协作任务,使用多智能体PPO(MAPPO)算法进行端到端联合优化。所有智能体共享一个最终的全局奖励(如最终答案的F1分数),并结合各自的惩罚项(如规划器生成过多子问题、作家生成答案过长等),从而确保整个团队为了“生成高质量答案”这一共同目标协同工作。 轻量化LLM生成 如何为计算和存储密集型的LLM“瘦身”,以满足搜索应用对低延迟和低成本的苛刻要求。这些轻量化技术分为两大类: 算法层面:核心是减少模型的计算量和参数量。具体方法包括局部注意力(Local Attention),即用计算成本更低的注意力机制(只关注部分上下文)来替代需要全局计算的原始注意力机制,并且这种替换通常只需少量微调甚至无需训练;以及模型剪枝(Model Pruning),特别是结构化剪枝,它直接移除整个神经元、注意力头甚至网络层,从而得到一个更小、更快的稠密模型,能直接在现有硬件上加速。 基础设施层面:核心是优化推理流程和资源利用。具体方法包括专门针对搜索场景的输出长度缩减(通过提示、训练或压缩中间状态,让模型输出更简洁)、语义缓存(Semantic Caching)(缓存相似问题的答案,避免重复计算);以及更通用的技术,如量化(Quantization)(将模型权重从高精度浮点数转为低精度整数或浮点数,减小内存占用并加速计算)、Prefill-Decode分离部署(将计算密集的提示处理阶段和内存带宽密集的生成阶段分开部署,优化资源分配),以及推测解码(Speculative Decoding)(用一个小的“草稿”模型快速生成多个候选词,然后由大模型一次性并行验证,从而加速生成过程)。 评估 本章的启发在于它不仅展示了新范式的优越性,还通过多维度、多场景的评估方式验证了其有效性。在人工评估中,系统将新范式(AI Search)与传统系统(Web Search)的结果进行“背靠背”比较,并使用归一化胜率(NWR) $NWR=\frac{\#Win-\#Lose}{\#Win+\#Tie+\#Lose}$ 这一量化指标。结果显示,对于简单问题,两者表现相当;但对于中等复杂和复杂问题,新范式的优势显著,尤其在复杂查询上实现了13%的相对提升,证明了其强大的推理和规划能力。在在线A/B测试中,系统在真实的百度搜索流量上进行了实验,结果显示新范式显著改善了多项核心用户体验指标,如查询改写率(CQR)降低1.45%(说明用户更容易一次性得到满意答案),日活跃用户数(DAU)提升1.85%,页面浏览量(PV)和用户停留时间(Dwell Time)也均有提升。最后,通过案例分析直观对比了新旧系统在处理简单查询“泰山多高?”和复杂查询“汉武帝和凯撒谁更年长?”时的表现差异,生动地展示了新范式在面对需要多步推理和工具调用的复杂问题时,如何通过规划、分解、执行、综合的流程得出正确答案,而传统系统则无能为力。 结论 本章总结了论文的核心贡献,其启发性在于清晰地勾勒出了下一代AI驱动搜索引擎的蓝图。论文提出的模块化、多智能体AI搜索范式,通过模拟人类的协作式问题解决流程,有效地克服了传统信息检索(IR)和现有RAG系统的局限性。该范式通过主动规划、动态工具整合和迭代推理,将搜索体验从被动的“文档列表提供者”提升为主动的“问题解决伙伴”,显著降低了用户的认知负担。这项工作不仅集成和优化了学术界与工业界的前沿技术,为未来的AI搜索研究和开发提供了一个结构清晰、内容详实的实践指南,也为如何实现更高效的智能体协作与无缝工具集成等未来研究方向指明了道路。
Andrej Karpathy:AI时代软件正在再次改变
《Andrej Karpathy: Software Is Changing (Again) 》 video: https://www.xiaohongshu.com/explore/68541c9c0000000015020db4?xsec_token=ABUBEZgdWSwwpyudD9_J0qqj3a1MFDXwBSKYa9oRS7qZw=&xsec_source=pc_user 这是一篇关于软件在AI时代演进的精彩演讲,演讲者从历史回顾到未来展望,深入探讨了大型语言模型(LLMs)如何改变软件开发的范式。 第一部分:软件范式的演变 (Software Paradigm Shifts) 在软件发展历程中,我们正经历前所未有的剧变。从70年来相对稳定的“软件1.0”(即人类编写的传统代码),到机器学习时代数据驱动的“软件2.0”(神经网络的权重),再到如今由LLMs赋能的“软件3.0”(通过自然语言提示来编程LLMs),软件的定义和开发方式正在发生根本性变革。特别是软件3.0,它引入了一种全新的编程范式——使用日常英语进行编程,这使得任何人都有可能成为“程序员”。对于即将进入行业的学生来说,掌握这三种范式并能够根据任务需求灵活切换和融合,是极其重要的能力,因为每种范式都有其独特的优势和局限性。 第二部分:LLMs的本质与生态系统 (The Nature and Ecosystem of LLMs) LLMs不仅是强大的计算工具,它们正逐渐展现出“公用事业”和“操作系统”的特性。从公用事业的角度看,LLM实验室投入巨大的资本来训练模型(类似电网建设),并通过API提供按量付费的服务(类似用电)。这要求LLMs具备低延迟、高可用性和一致的质量,并且能够像电力供应一样进行切换,甚至在模型“停摆”时,会造成全球范围内的“智能停电”。从操作系统的角度看,LLMs的复杂性、工具使用和多模态能力使其远超简单的商品。它们类似于1960年代的早期计算机操作系统,将LLM本身视为CPU,上下文窗口作为内存,并能够协调计算和记忆来解决问题。这种类比意味着我们正处于个人计算革命的前夜,LLMs将从云端集中式服务逐渐走向更多样化的部署,甚至可能出现“个人LLM”设备。然而,与历史不同的是,LLMs的普及速度极快,通过ChatGPT等应用瞬间触达亿万用户,这为我们提供了前所未有的机遇去编程这些新型计算机。 第三部分:LLMs的心理学与局限性 (The Psychology and Limitations of LLMs) 将LLMs理解为“人类灵魂的随机模拟”有助于我们更好地利用它们。尽管LLMs拥有超人的知识和记忆能力(如同“雨人”般的记忆力),能够轻易记住大量信息,但它们也存在显著的认知缺陷。这些缺陷包括:频繁的“幻觉”和编造信息、自我认知模型不足、以及“锯齿状智能”(在某些领域超人,在另一些领域却犯下人类不会犯的低级错误)。此外,LLMs还存在“顺行性遗忘症”——它们不像人类同事那样能够持续学习和巩固知识,每次交互上下文窗口都会被“清空”,需要明确的编程来管理工作记忆。在安全性方面,LLMs易受提示注入攻击,并可能泄露数据。因此,与LLMs合作的关键在于:如何在利用它们超人能力的同时,巧妙地规避和克服它们的这些局限性。 第四部分:利用LLMs的机遇:半自动化应用 (Opportunities with LLMs: Partial Autonomy Apps) LLMs带来了“半自动化应用”的巨大机遇,这类应用旨在将人类与AI的合作效率最大化。以代码编写为例,像Cursor这样的工具,提供了传统的人机交互界面,同时无缝集成LLM能力,允许人类以更大的块来操作。这类应用的关键特征包括:LLM对上下文的有效管理、协调LLM的多次调用、以及应用特定的图形用户界面(GUI)的重要性。GUI能够让用户直观地审计AI的工作,通过可视化差异(如代码的红绿变化)和简单的操作(如Command+Y接受,Command+N拒绝)来加速验证过程。此外,一个重要的概念是“自动化滑块”,允许用户根据任务复杂性调整AI的自主程度,从提供少量建议到全权代理。总而言之,未来的软件将普遍具备部分自动化能力,开发者需要思考如何让AI能够“看到”和“行动”如同人类,同时保持人类的监督和控制,确保AI的产出可审计、可控。 第五部分:人机协作的策略与最佳实践 (Strategies and Best Practices for Human-AI Collaboration) 在与LLMs协作时,核心目标是最大限度地提升“生成-验证”循环的速度。实现这一目标的关键策略有两点:首先,通过GUI等可视化工具大幅加速人类的验证过程,因为视觉信息比纯文本更容易理解和处理,能更快地将信息传达给大脑。其次,必须学会“牵着AI的缰绳”,避免过度激进的AI代理。LLMs容易产生过大的、难以审计的输出(例如一次性生成1000行代码的diff),这反而会成为人类的瓶颈。因此,最佳实践是小步快跑、增量迭代,确保每一次修改都经过细致的审查。对于提示词的编写,越具体、越精确的提示,越能提高AI生成结果的准确性,从而减少验证失败的次数,加速整个开发流程。这种“牵着AI的缰绳”的理念同样适用于教育等领域,通过将课程内容结构化、可审计化,确保AI在教学过程中不偏离预设的教学大纲。 第六部分:面向AI代理的软件构建 (Building Software for AI Agents) 随着AI代理成为数字信息的新的消费者和操纵者,我们需要重新思考如何构建软件。以往的软件主要面向人类用户(通过GUI)或传统计算机程序(通过API),现在则多了一个“类人”的计算机——AI代理。这意味着我们需要为LLMs设计更直接、更易于理解的接口。例如,在网站中增加llms.txt文件,直接用Markdown格式告诉LLM网站内容,这比让LLM解析复杂的HTML更高效、更不易出错。大量为人类编写的文档(包含图片、粗体、列表等)对LLM来说并不友好,因此将文档转换为Markdown格式,并替换“点击”等人类操作指令为LLM可执行的curl命令,能够极大地提升LLM访问和利用信息的效率。一些工具如git.ingest和Deep Wiki已经开始尝试将GitHub仓库内容或维基百科页面转换为LLM友好格式,这表明了未来软件基础设施将更多地考虑AI代理的需求。虽然LLMs未来可能具备点击网页等操作能力,但通过优化信息呈现方式,让LLMs更容易“阅读”和“理解”信息,仍然是提升效率的关键。 总结 (Conclusion) 当前是进入软件行业一个非凡的时代,我们将见证并参与到软件的全面重写中。这些代码将由专业开发者和“字节码程序员”(通过自然语言与LLM交互的非专业人士)共同完成。LLMs正扮演着公用事业、工厂(Fab)和操作系统的多重角色,但其发展仍处于早期阶段,类似于1960年代的计算机操作系统。与它们合作,就像与有超能力但存在缺陷的“人工智能灵魂”共事。因此,在构建LLM应用时,我们需要设计能够实现“部分自动化”的产品,通过精心的GUI和UI/UX设计来加速人类的生成-验证循环,并确保AI始终在可控范围内。同时,软件基础设施也需要为AI代理进行优化,提供LLM友好的文档和数据访问方式。从“钢铁侠增强套装”到“钢铁侠代理人”的转变,代表着未来十年自动化程度的不断提升,这是一个令人兴奋且充满挑战的旅程,需要我们共同努力去构建。
Gemini 2.5 报告
《Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities》 本报告介绍了Gemini 2.X模型家族,包括Gemini 2.5 Pro和Gemini 2.5 Flash,以及早期版本Gemini 2.0 Flash和Flash-Lite。这一代模型原生支持多模态,具备先进的思维推理、长上下文处理和工具使用能力,能够处理超过100万个token的文本、音频、图像、视频甚至整个代码库。Gemini 2.5 Pro是目前最强大的模型,在编码和推理基准测试中达到了SOTA(State-of-the-Art)性能,并擅长多模态理解,能够处理长达3小时的视频内容。Gemini 2.5 Flash则在计算和延迟要求较低的情况下提供出色的推理能力。Gemini 2.0 Flash和Flash-Lite则在高性价比和低延迟方面表现优异。这些模型共同覆盖了模型能力与成本的帕累托前沿,使用户能够探索复杂Agent问题解决的边界。 模型架构 Gemini 2.5模型采用了稀疏混合专家(MoE)Transformer架构,原生支持文本、视觉和音频输入。MoE模型通过动态路由token到参数子集(专家)来激活部分模型参数,从而在计算和token服务成本上解耦了总模型容量。架构的改进显著提升了Gemini 2.5的性能。Gemini 2.5系列在提升大规模训练稳定性、信号传播和优化动态方面取得了重大进展,从而在预训练阶段就显著提升了性能。Gemini 2.5模型在处理长上下文查询方面也取得了进展,Gemini 2.5 Pro在处理长达1M token的输入序列上超越了Gemini 1.5 Pro。此外,Gemini 2.5在视觉处理方面的架构改进显著提升了图像和视频理解能力,包括能够处理3小时长的视频,并将演示视频转化为交互式编码应用。小型模型(Flash及以下)利用了蒸馏技术,通过近似k稀疏分布来降低教师模型下一代token预测分布的存储成本,从而在质量和降低服务成本之间取得了平衡。 数据集 Gemini 2.0和2.5的预训练数据集是一个大规模、多样化的数据集合,涵盖了广泛的领域和模态,包括公开可用的网络文档、代码(各种编程语言)、图像、音频(包括语音和其他音频类型)和视频。Gemini 2.0的数据截止日期是2024年6月,Gemini 2.5是2025年1月。相较于Gemini 1.5的预训练数据集,2.0和2.5采用了新的方法来改进数据过滤和去重,以提高数据质量。后训练数据集与Gemini 1.5类似,包含经过精心收集和审查的指令调优数据,以及多模态数据、配对的指令和响应,此外还有人类偏好和工具使用数据。 训练基础设施 Gemini 2.X模型家族是首个在TPUv5p架构上训练的模型,采用了跨多个数据中心的Google TPUv5p加速器上的同步数据并行训练。与Gemini 1.5相比,主要的软件预训练基础设施改进在于弹性和SDC(静默数据损坏)错误缓解。Slice-Granularity Elasticity(切片粒度弹性)允许系统在局部故障时自动以较少数量的TPU芯片“切片”继续训练,每次中断只损失几十秒的训练时间,而无需等待机器重新调度。Split-Phase SDC Detection(分阶段SDC检测)利用轻量级确定性重放立即重复任何可疑指标的步骤,并通过比较每个设备的中间校验和来定位数据损坏的根本原因,从而在几分钟内识别并排除有间歇性SDC的加速器,显著减少了调试停机时间和训练步骤回滚。这些技术的实现得益于Pathways系统单一控制器的设计,该设计允许所有加速器通过一个具有全局系统视图的Python程序进行协调。 后训练 Gemini 1.5发布以来,后训练方法取得了显著进展,主要集中在监督微调(SFT)、奖励建模(RM)和强化学习(RL)阶段的数据质量。关键做法是利用模型本身辅助这些过程,实现更高效和精细的质量控制。此外,报告增加了RL的训练计算资源,实现了模型行为的更深层次探索和完善。这与对可验证奖励和基于模型的生成奖励的关注相结合,提供了更复杂和可扩展的反馈信号。RL流程的算法变化也提高了长时间训练的稳定性。这些进展使Gemini 2.5能够从更多样化和复杂的RL环境中学习,包括那些需要多步动作和工具使用的环境,从而实现了全面性能提升,Gemini 2.5 Flash和Pro在LMArena ELO分数上比Gemini 1.5对应模型提高了120多分,并在其他前沿基准测试中取得了显著进步。 思维 (Thinking) 过去的Gemini模型在用户查询后立即生成答案,这限制了模型在推理问题上花费的推理时间(思维)。Gemini Thinking模型通过强化学习进行训练,在推理时利用额外的计算资源以获得更准确的答案。最终模型能够在回答问题或查询之前进行数万次前向传递的“思考”阶段。训练方案从最初的实验性思考模型Gemini 2.0 Flash Thinking(2024年12月发布)演变为Gemini 2.5 Thinking系列,后者在所有领域原生集成了思考能力,实现了全面的更强推理性能,并能随着推理时间的增加进一步提升性能。Gemini 2.5 Thinking模型将思维能力与原生多模态输入(图像、文本、视频、音频)和长上下文(1M+ token)等其他Gemini能力相结合。模型可以自行决定思考时长,用户也可以设置思考预算来平衡性能和成本。 ...
GRPO? DAPO? 我用CISPO!
MiniMax-M1 是全球首个开放权重的大规模混合注意力推理模型 ,它通过创新的架构设计和训练方法,旨在高效地扩展模型的测试时计算能力,以处理复杂任务 。该模型的核心动力源于一个结合了混合专家(MoE)与Lightning注意力(Lightning Attention)机制的混合架构 。M1 模型基于其前身 MiniMax-Text-01 开发而来 ,总参数量达到 4560 亿,但每个词元(token)仅激活 459 亿参数 ,从而实现了高效率。得益于其架构,M1 原生支持高达 100 万词元的超长上下文 ,并且计算成本极低,例如,在生成 10 万词元长度的内容时,其计算量仅为 DeepSeek R1 的 25% 。为了训练模型卓越的推理能力,团队采用了大规模强化学习(RL) ,并为此开发了一种名为 CISPO 的新颖 RL 算法 。该算法通过裁剪重要性采样权重而非词元更新来稳定训练,表现优于其他竞争算法 。这种高效的架构与算法相结合,使得 M1 的完整强化学习训练在 512 个 H800 GPU 上仅用三周便得以完成,成本约为 53.47 万美元 。团队公开发布了两个版本,分别拥有 40K 和 80K 的“思考预算” ,在标准基准测试中,其表现与 DeepSeek-R1 和 Qwen3-235B 等顶尖开源模型相当或更优,尤其在复杂的软件工程、智能体工具使用和长上下文任务上展现出明显优势 。 为可扩展的强化学习做准备 这一章的启发点在于它揭示了在进行高成本的强化学习(RL)之前,扎实的“地基”工作是多么重要,以及如何高效地打好这个地基。这个准备工作分为两个关键步骤。 第一步是持续预训练 (Continual Pre-training),目标是增强基础模型的内在推理能力。他们的做法是,在原有模型基础上,再用 7.5 万亿个精心筛选的、侧重于推理的词元进行训练。这里的关键操作是,他们优化了数据处理流程,特别提高了数学和代码类高质量数据的比例至 70%,并且严格避免使用合成数据,以保证数据质量和多样性。一个非常重要的实践经验是,为了训练超长文本(100 万词元),他们没有一步到位,而是采用分阶段逐步延长训练文本长度的策略(从 32K 开始),有效避免了训练过程中可能出现的梯度爆炸问题。 第二步是监督微调 (Supervised Fine-Tuning, SFT),目标是为模型注入特定的“思维模式”,即“思维链”(Chain-of-Thought)。他们的做法是,精心筛选了大量包含长篇思考过程的样本,覆盖数学、代码、问答等多个领域(其中数学和代码占 60%),让模型在强化学习开始前就“学会”如何进行有条理的思考,为后续更高效、更稳定的 RL 训练奠定了坚实的基础。 ...
Multiverse: 如何让大模型实现原生并行生成?
《Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation 》 这篇论文的核心是提出了一种名为“Multiverse”的新型生成模型框架,旨在让大型语言模型(LLM)能够实现原生的并行生成。这个框架的灵感来源于一个关键发现:传统的自回归模型在生成长序列(如解题步骤)时,其输出内容在逻辑上已经隐含了可以并行的部分。Multiverse 模型将经典的 MapReduce 计算范式(一种分而治之的思想)内化到了模型结构中,通过三个阶段进行工作:首先是 Map(映射) 阶段,模型自主地分析任务并将其分解为多个子任务;其次是 Process(处理) 阶段,模型并行地执行这些独立的子任务;最后是 Reduce(规约) 阶段,模型将所有并行分支的结果无损地合并,并生成最终结论。为了实现这一框架,研究者们进行了一套完整的“协同设计”,涵盖了数据、算法和系统三个层面,并成功地将一个强大的自回归模型(Qwen-2.5-32B)用极低的成本(1000个样本,3小时训练)转化为了 Multiverse 模型。最终结果表明,该模型在保持与顶尖自回归模型相当的推理性能的同时,由于其并行生成能力,获得了最高可达2倍的推理速度提升。 我们能否设计一个模型,让它能“智能地”决定何时拆分任务进行并行处理,何时合并结果,并且整个过程都在模型内部无缝完成?这为 Multiverse 框架的提出奠定了基础,即让模型学会自己做“项目管理”,从单线程工作者进化为高效的多任务团队。 长链思维(CoT)生成:逻辑上是顺序还是并行? 深入分析了现有顶尖模型生成的长篇推理数据。他们发现,超过98%的推理案例中都存在可以并行的部分。他们将这些并行模式分为两类:集体性分支(Collective Branches),比如分析一个问题的多个方面,所有方面的结果最后都要用到;以及 选择性分支(Selective Branches),比如探索多种解题思路,最后只选择最有效的一种。更关键的一步是,他们通过“提示测试”(Prompting Test)和“探针测试”(Probing Test)证明,尽管这些模型能无意识地生成含并列逻辑的内容,但它们实际上无法主动地、显式地去规划和识别这种并行结构。这就像一个人虽然可以说出包含并列关系的话,但他自己并没有意识到“并列”这个语法结构。这个发现非常重要,它说明了现有模型“知其然,而不知其所以然”,从而论证了创造一个能主动理解和运用并行思维的新模型框架的必要性。 为原生并行生成模型设计 Multiverse Multiverse 框架的理论核心,最具创造性的做法是将 MapReduce 思想和一套特殊的“控制标签”结合起来,从而在模型层面实现了对生成流程的精确控制。 其核心流程分为三步: 1. Map(映射)阶段,模型首先生成一个任务分解计划,就像一个项目经理写下任务大纲; 2. Process(处理)阶段,模型根据计划,在多个独立的“路径”(Path)中并行生成内容,每个路径处理一个子任务; 3. Reduce(规约)阶段,当所有路径都完成后,模型将所有路径的输出信息整合起来,进行总结和最终推理。 为了让模型和推理系统能够“听懂”这个流程,作者设计了一套类似XML的控制标签,例如 <Parallel> 标志着并行块的开始,<Goal> 和 <Outline> 定义了总目标和各个子任务,<Path> 包裹着每个并行的处理过程,而 <Conclusion> 则触发最终的合并与总结。这种设计非常巧妙,它把复杂的并行逻辑控制问题,转化成了一个模型生成特定“指令文本”的问题,让模型能够自我指导其生成过程,实现了“代码即流程”。 构建一个真实世界中的 Multiverse 模型 其核心思想是“数据、算法、系统”三位一体的协同设计,每一步都充满了巧思。 5.1 数据管理 (Data Curation): 最大的难题是“从0到1”——没有现成的并行化训练数据。作者的解决方案“Multiverse Curator”是一个极具启发性的自动化数据处理流水线。它使用一个强大的LLM(Gemini 2.5 Pro)作为“数据标注员”,通过五步提示工程,将现有的海量、高质量的“顺序”推理数据,自动转换为带有并行结构标签的 Multiverse 数据格式。这五个步骤包括:解析为树状摘要、识别并行节点、用控制标签重构、填回原始内容、添加Map/Reduce阶段并重写路径以保证独立性。这个方法极大地降低了数据准备的成本,为训练新架构模型提供了一条捷径。 ...
“交错推理”减少首token耗时
《Interleaved Reasoning for Large Language Models via Reinforcement Learning》 这篇论文的核心思想是解决大型语言模型在进行长链式思考(CoT)时响应速度慢(即“首个token时间”TTFT过长)和容易中途出错的问题。研究者提出了一种名为“交错推理”(Interleaved Reasoning)的全新训练模式,通过强化学习(RL)来引导模型在“思考”和“回答”之间来回切换。这种方法不仅能将用户的等待时间(TTFT)平均减少超过80%,还能将解题的正确率(Pass@1)提升高达19.3%。最关键的是,这种方法不依赖任何外部工具,并且在仅用问答和逻辑推理数据集训练后,模型能在数学(MATH)、物理(GPQA)等它从未见过的复杂推理任务上表现出色,展现了强大的泛化能力。 “先思考后回答”(think-answer)模式存在两个主要弊端。首先,模型需要生成一长串完整的思考过程后才能给出第一个字的答案,这在对话式应用中会造成明显的延迟,影响用户体验。其次,由于奖励信号只在最终答案产生后才出现,如果模型在思考的早期步骤就犯了错,这个错误会一直延续下去,导致最终结果不准确,造成所谓的“过度思考”或“思考不足”。作者们从人类交谈中获得启发,我们通常会给出阶段性的反馈来表示理解。因此,他们提出“交错推理”,让模型把复杂问题分解成小步骤,每完成一步就给出一个小结(sub-answer),这样不仅能立即给用户反馈,还能利用这些中间答案作为更密集的监督信号来指导后续的推理,从而让训练更有效。 目前,利用强化学习提升模型推理能力主要依赖两种奖励模型:结果奖励模型(ORM)只看最终答案对错,过程奖励模型(PRM)则对思考过程中的每一步进行打分。PRM虽然能提供更密集的反馈,但往往需要大量人工标注或训练一个额外的复杂模型,实施起来很困难。本文提出的方法巧妙地结合了两者的优点:它像PRM一样关注中间步骤,但实现上却像ORM一样简单,仅使用基于规则的奖励来给正确的中间答案“记功”,而无需一个专门的奖励模型。这与其他工作要么依赖外部工具(如搜索引擎),要么只关注缩短推理长度不同,本文更侧重于激发和利用模型自身生成可验证的中间答案的能力。 为交错推理训练大语言模型 如何训练模型学会“交错推理”。其关键步骤如下:首先,他们定义了一种新的交互模式,通过在<think>和<answer>这两个特殊标签中引导模型进行思考和回答,形成一种<think>...<answer>...<think>...<answer>...的交错生成格式。其次,他们将这个过程构建为一个强化学习问题,其目标函数为: 即在最大化奖励的同时,通过KL散度惩罚项防止模型偏离原始模型太远。最关键的创新在于其奖励设计,特别是“条件性中间准确率奖励”。研究发现,如果一开始就对不成熟的中间步骤给予奖励,模型可能会为了局部正确而牺牲最终的全局正确性。因此,他们设计了一个巧妙的条件机制:只有当模型的最终答案正确、输出格式合规、且在当前批次的学习中表现出进步时,才会对正确的中间步骤给予额外奖励。其奖励函数可以表示为: 其中中间奖励$r_{intermcdiate}$是有条件触发的。 这种“扶优扶强”的策略确保了模型首先学会走对路,然后再学习如何把路走得更漂亮、更高效。 主要实验 实验部分验证了“交错推理”方法的有效性。研究者们使用了15亿和70亿参数的Qwen2.5模型,并在两类数据集上进行了测试:一类是用于训练的“域内”数据集(如逻辑题K&K和多跳问答Musique),另一类是模型从未见过的“域外”数据集(如GPQA、MMLU和MATH)来检验其泛化能力。他们将自己的方法(Interleave + IR,即带中间奖励的交错推理)与多种基线方法(如直接回答、标准链式思考CoT、以及标准的“先思考后回答”式强化学习)进行对比。结果非常显著:与“先思考后回答”的基线相比,他们的方法在所有数据集上都实现了超过80%的TTFT(首个token时间)降低,这意味着用户能快大约五倍得到有用的信息。同时,Pass@1准确率也得到了显著提升,尤其是在15亿参数的模型上相对提升了19.3%。这证明了“交错推理”不仅大幅提升了模型的响应速度和互动性,还实实在在地增强了其推理的准确性。
Qwen团队:LLM的推理过程的“关键少数”原则
《Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning》Qwen团队和清华LeapLab团队出品 👍 这篇论文的核心观点是,在通过强化学习(RL)提升大语言模型(LLM)的推理能力时,并非所有词元(token)都同等重要。研究者发现,在模型的推理过程中,只有一小部分“高熵”的少数词元(大约20%)扮演着关键的“岔路口”角色,引导着推理的方向,而大部分“低熵”词元只是在已确定的路径上进行填充 。基于此,他们提出了一种创新的训练方法:在强化学习中,只针对这20%的“岔路口词元”(forking tokens)进行策略更新。实验结果惊人地发现,这种方法不仅没有降低性能,反而在Qwen3-32B等大模型上取得了远超于使用全部词元进行训练的效果(例如在AIME'25测试上提升了11.04分)。相反,如果只训练那80%的低熵词元,模型性能会急剧下降。这揭示了强化学习之所以能有效提升推理能力,其根本原因在于优化了那些决定推理方向的高熵关键少数词元。 目前在带可验证奖励的强化学习(RLVR)训练时存在一个认知盲区。现有方法通常对生成的所有词元一视同仁地进行训练,没有区分它们在推理过程中扮演的不同功能角色,这可能限制了模型性能的进一步提升。为此,本研究提出了一个全新的视角:通过分析“词元熵”的模式来理解RLVR的内部机制。作者预告了他们的核心发现:推理过程中的词元可以被分为两类,一类是少数高熵的“岔路口词元”(forking tokens),它们负责引导推理走向不同路径;另一类是多数低熵的“跟随者词元”,负责沿着路径填充内容。论文的主要贡献就是验证了只对前者进行强化学习训练,可以在更大型的模型上取得远超传统方法的性能,这揭示了高熵少数词元在推理能力提升中的决定性作用。 预备知识 “词元熵”的计算,其公式为 $H_{t}:=-\sum_{j=1}^{V}p_{t,j}\log p_{t,j}$ 。需要明确的是,这里的熵衡量的是在生成某个词元时,模型对于词汇表中所有可能词元的概率分布的不确定性,而不是针对某个被采样出的特定词元。简单来说,熵越高,代表模型在这一步的选择越不确定,面临的可能路径越多。其次,文章介绍了作为实验基础的RLVR算法,特别是DAPO算法。DAPO是一种先进的、无需价值网络的强化学习算法,它通过比较一批生成回复的最终奖励好坏来估算优势,并结合了“clip-higher”等机制来稳定和优化训练过程,是目前效果最好的RLVR算法之一。 分析思维链推理中的词元熵 研究者让Qwen3-8B模型解答数学问题,并收集了超过一百万个词元的熵数据进行分析。第一个模式是,词元熵的分布极不均匀:超过一半的词元熵值极低(接近于0),而只有20%的词元拥有较高的熵值。第二个模式是,高熵词元和低熵词元在功能上泾渭分明。通过分析具体词语发现,高熵词元通常是那些引导逻辑、引入假设或做出转折的词,如“然而(however)”、“假设(suppose)”、“因此(thus)”等,它们如同推理路径上的“岔路口” 。而低熵词元则多为单词后缀或固定的数学符号,负责完成句子结构,具有很高的确定性。为了验证“岔路口词元”的重要性,研究者还做了一个巧妙的实验:在生成回答时,只提高岔路口词元的解码温度(即增加随机性),结果模型性能显著提升;反之则性能下降,这定量地证实了在这些关键决策点上保持较高的不确定性是有益的。 RLVR保留并强化基础模型的熵模式 在RLVR训练过程中,有两个核心发现。 第一,RLVR在很大程度上保留了原始基础模型的熵模式 。通过对比训练过程中不同阶段模型的高熵词元位置,发现即便是训练完成后的模型,其高熵词元的位置与初始模型相比仍有超过86%的重叠度。这说明,哪些位置应该是不确定的“岔路口”,在模型预训练后就基本定型了,强化学习并未大规模改变它。 第二,RLVR的训练效果主要体现在对高熵词元的熵值进行调整 。数据显示,初始熵越高的词元,在RLVR训练后其熵值的变化也越大;而那些低熵词元的熵值在整个训练过程中则基本保持稳定,波动很小。这表明,强化学习的优化过程,是聚焦于那些关键的“岔路口”,去调整在这些点上的选择倾向,而不是去改变整个推理路径的结构。 高熵少数词元驱动有效的RLVR 研究者修改了DAPO强化学习算法的目标函数,加入了一个指示函数$\mathbb{I}[H_{t}^{i}\ge\tau_{\rho}^{B}]$ 。这个函数的作用相当于一个“开关”,它只允许每批数据中熵值排名前$\rho$(实验中主要设为20%)的词元参与策略梯度的计算和模型更新,而忽略掉其余80%的低熵词元 。 实验结果非常有力:在Qwen3-14B和Qwen3-32B这样的大模型上,这种“只训练20%关键少数”的方法,其性能显著超过了使用100%全部词元进行训练的传统方法 。反之,如果只用那80%的低熵词元来训练,模型性能会严重下降。作者认为,这背后的原因是高熵词元对于强化学习中的“探索”至关重要,而只保留约20%的最高熵词元,恰好在探索和训练稳定性之间取得了最佳平衡。并且,这种性能增益随着模型规模的增大而越发明显,显示出良好的扩展趋势。 讨论 第一,它为“为什么强化学习(RL)能泛化而监督微调(SFT)易于记忆”这一问题提供了新解释。作者推测,RL之所以泛化能力强,可能是因为它在训练中保持甚至增加了“岔路口词元”的熵,从而保留了推理路径的灵活性;而SFT倾向于将模型输出推向确定性的答案,降低了这些词元的熵,导致推理路径变得僵化。 第二,它解释了为何LLM的推理过程与传统RL任务不同。传统RL任务的动作熵可以很均匀,而LLM因为经过海量文本预训练,大部分语言都遵循固定模式(低熵),只有少数地方需要做真正的决策(高熵),这种独特的熵分布是由其语言模型的本质决定的。 第三,它指出了在LLM中直接使用“熵奖励”来鼓励探索可能并非最佳选择。因为这会错误地增加那些本应确定的低熵词元的不确定性,破坏语言的流畅性。相比之下,DAPO算法中的“clip-higher”机制则更优越,因为它能间接地、更精准地作用于高熵词元,在需要探索的地方进行探索。 刚好近期看到了一个类似的大模型比赛,阿里天池上的AFAC大赛:赛题三《金融领域中的长思维链压缩》,关注“长思维链”处理问题,任务目标——“构建高效的推理链压缩方法”、“保留关键推理逻辑,剔除冗余内容”。有三个大模型方向的赛题,感兴趣的同学可以一试,7.19前截止。奖励也不错,百万奖金+校招直通!
Sam Altman:悄然降临的奇点
《The Gentle Singularity》 我们已经跨过了“事件视界” (event horizon),技术腾飞的进程已经开启。人类距离建成数字超级智能仅一步之遥,而至少从目前来看,它的发展远比想象中平淡无奇。 街上还没有穿梭的机器人,我们大多数人也并未整日与 AI 对话。疾病依然夺走生命,太空旅行依然遥不可及,宇宙的诸多奥秘仍待我们探索。 然而,我们最近创造出的系统已在诸多方面超越人类,并能显著提升使用者的产出。这项事业中最艰难的部分——那些催生出 GPT-4 和 o3 等系统的科学洞见——已经攻克。这些来之不易的成果将引领我们走向更远的未来。 AI 将从多方面贡献世界,但其中最巨大的收益,将来自于它推动科学加速进步和生产力提升所带来的生活品质飞跃。未来可以比现在美好得多。科学是推动全面进步的根本动力,一想到我们将拥有的无限可能,就足以令人心潮澎湃。 从更宏大的意义上说,ChatGPT 的能力已经超越了历史上任何一位人类。每天,数以亿计的用户依靠它处理日益重要的任务。一个微小的功能更新可能带来巨大的正面效应,同样,一个微小的偏差在数亿用户的规模下,也可能造成极其深远的负面影响。 2025 年,能够胜任真正认知工作的“智能体” (agents) 已经问世,软件编程的方式将被永久改变。到 2026 年,我们或许会迎来能够洞察新知的系统。而到了 2027 年,能够在物理世界中执行任务的机器人或许也将成为现实。 未来,将有更多人能够创作软件与艺术。但世界对这两者的需求远未饱和,只要善用新工具,领域专家的表现仍将远超新手。总体而言,一个显著的变化是,到 2030 年,个体的能力将远超 2020 年的水平,而很多人都将找到从中获益的方式。 在那些最核心的层面,2030 年代的生活或许并不会发生颠覆性的改变。人们依然会热爱家庭、挥洒创意、享受游戏、在湖中畅游。 但在其他同样至关重要的方面,2030 年代将与过往任何时代都截然不同。我们尚不清楚智能的上限能超越人类多少,但答案即将揭晓。 进入 2030 年代,智能与能源——也就是思想以及将思想化为现实的能力——将变得唾手可得。长久以来,这两者是限制人类发展的根本瓶颈。一旦拥有了充裕的智能与能源(并辅以良好的治理),理论上,我们便能拥有一切。 我们已身处一个拥有惊人数字智能的时代,在最初的震撼过后,大多数人已习以为常。我们心态的转变非常迅速:从惊叹 AI 能写出一段优美的文字,到期待它能创作一部完整的小说;从惊叹它能辅助进行挽救生命的医疗诊断,到期盼它能研发出治愈疾病的良方;从惊叹它能编写一个小型程序,到希望它能创立一家全新的公司。这就是奇点演进的方式:昔日的奇迹变为寻常,再变为最基本的要求 (table stakes)。 我们已经从科学家口中得知,AI 使他们的研究效率提升了两到三倍。先进 AI 的意义非凡,但最重要的一点或许在于,我们可以利用它来加速 AI 自身的研究。我们或许能发现全新的计算基底、更优的算法,以及更多未知可能。如果能用一年甚至一个月的时间,完成过去需要十年才能完成的研究,那么进步的速度显然将不可同日而语。 从此刻起,我们已有的工具将帮助我们获得更深的科学洞见,并创造出更卓越的 AI 系统。这当然不等同于 AI 系统完全自主地更新代码,但这无疑是“递归式自我完善” (recursive self-improvement) 的雏形。 其他的自我强化循环也已开始运转。AI 创造的经济价值,已经启动了为更强大 AI 系统建设基础设施的飞轮效应。而能够制造其他机器人的机器人(某种意义上,也包括能建造其他数据中心的数据中心)也已不再遥远。 试想一下,如果我们必须以传统方式造出首批一百万台人形机器人,但此后,它们便能接管从采矿、冶炼、货运到工厂运营的整条供应链,从而制造出更多的机器人,进而建造更多的芯片工厂和数据中心,那么发展的速度无疑将发生质变。 随着数据中心生产的自动化,智能的成本最终应会向电力的成本靠拢。(人们常对 ChatGPT 的能耗感到好奇:平均每次查询耗电约 0.34 瓦时,相当于烤箱运行一秒多,或一个高能效灯泡亮几分钟。耗水约 0.000085 加仑,约为一茶匙的十五分之一。) 科技进步的步伐将不断加速,而人类几乎能适应任何变化。这个过程必然伴随着阵痛,例如整个工种类别的消失。但另一方面,世界财富的增长速度将如此之快,使我们能够认真考虑过去无法想象的新政策。我们或许不会一蹴而就地建立新的社会契约,但数十年后回望,这些渐进的改变将汇聚成一场巨大的变革。 ...
对近期LLM-RL研究主张的质疑
《Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims》 近期大量宣称通过强化学习(RL)改进大语言模型(LLM)“推理能力”的论文,特别是那些声称使用随机或无外部奖励就能取得进步的论文,引发了广泛关注。然而,作者团队分析了7篇热门LLM RL论文后发现,这些研究中RL方法带来的实际改进并不明确。核心问题在于,这些论文报告的预RL模型(即原始模型)的基线性能显著低于Qwen等模型的官方发布数据或其他标准化评估(如“Sober Reasoning”论文)中的数据。在某些情况下,经过RL调优后的模型性能甚至比(正确评估的)原始基线模型还要差。这意味着这些研究所声称的通过RL“激发”出的能力,可能无需任何权重更新或微调,仅通过修正提示工程(prompting)和生成超参数(如使用正确的输出格式、更好的答案解析方法、推荐的采样温度、一致的最大输出token数、使用少样本提示改进格式遵循性)就能实现。如果RL训练主要只是教会模型更好地适应评估格式,那么它并未如期望那样带来新的推理能力。作者呼吁未来论文发布时应至少提供HuggingFace上的开源权重检查点和针对报告评估数据的样本级模型输出。文中的“MATH 500结果快照”图表和随附的表格直观地展示了多篇论文报告的RL后准确率、报告的预RL准确率与“实际”预RL准确率之间的巨大差异,例如“Spurious Rewards”论文中Qwen2.5-7B模型报告的预RL准确率为41.6%,而实际应为64.6%。 近期论文结果的仔细审视 1. Spurious Rewards: Rethinking Training Signals in RLVR 该论文声称,即使使用与正确答案关联不大甚至负相关的“虚假奖励”(spurious rewards),强化学习验证奖励(RLVR)也能激发某些模型(如Qwen2.5-Math-7B)强大的数学推理能力,例如通过随机奖励使其在MATH500上的性能提升21.4%。然而,作者指出,该论文报告的多个Qwen模型(如Qwen2.5-Math-7B在MATH500上报告基线49.4%,实际为64.3%;Qwen2.5-7B报告41.6%,实际为59.7%)的基线准确率远低于实际水平。这意味着,论文中通过各种虚假奖励(如一次性奖励、格式奖励、随机奖励、错误标签奖励)获得的性能提升,在与修正后的实际基线比较时,大部分增益都消失了,可能仅仅是弥补了其评估设置未能充分发挥预RL模型能力的缺陷。此外,论文中关于RL对Qwen有效而对Llama无效的附带声明,也可能因为对Llama测试的是指令调优模型,而对Qwen测试的是基础模型——这种模型类型的差异本身就会导致能力表现的巨大不同,因为指令调优本身已在很大程度上激发了基础模型的能力。 2. Maximizing Confidence Alone Improves Reasoning 这篇论文提出了一种完全无监督的RL方法,它不依赖外部奖励或真实答案,而是使用模型对其生成答案的分布熵(即模型置信度)作为内在奖励,声称通过强化高置信度思维链能提升模型的推理能力。作者通过对比发现,该论文报告的多个Qwen模型(如Qwen2.5-1.5B Instruct在GSM8k上报告基线9.7%,实际为73.2%;Qwen2.5-7B Instruct在GSM8k上报告基线78.0%,实际为91.6%)的pre-RL模型基线准确率被严重低估。在许多模型和数据集对上,正确评估的预RL模型性能甚至远高于RL调优后的模型。例如,Qwen2.5-1.5B Instruct在GSM8k上RL后的准确率为72.5%,但其在Qwen官方发布中的实际基线已达73.2%。这让人质疑RL是否真的提升了推理能力,或者仅仅是缓解了因评估设置问题(作者声称是模型未遵循其使用的####.输出格式,而社区更倾向于使用\\boxed{}格式,模型在此格式下表现更好)导致的预RL模型能力被低估的现象。论文中关于仅用格式奖励进行RL训练效果不如其方法的控制实验,并不能充分证明其方法优于简单地修复格式问题,因为格式奖励模型可能优化不足或导致灾难性遗忘。 3. RL with 1 Example 该论文的核心主张是,应用RLVR到基础模型(如Qwen2.5-Math-1.5B),仅通过一个精心挑选的样本进行强化学习,就能显著提升模型在多个数学推理基准上的性能,例如将Qwen2.5-Math-1.5B在MATH500上的性能从36.0%提升到73.6%。然而,作者指出,该论文中DeepSeek-R1-Distill-Qwen-1.5模型在多个基准测试(如MATH500上RL后78.0%,报告基线71.0%,实际基线84.9%)上的RL后准确率,实际上低于正确评估设置下的实际基线模型准确率。对于Qwen2.5-Math-7B模型,虽然RL后的准确率(如MATH500上79.2%)确实超过了实际的零样本基线(64.3%),但由于其报告的基线(51.0%)被严重低估,使得提升幅度看起来远大于实际情况。评估出错的可能原因包括:1. 论文使用了官方Qwen2.5-Math评估流程,而Math-verify等更新的评估方法在答案提取方面更为鲁棒,旧流程可能导致基线偏低;2. 对某些测试集重复8次测试并使用0.6的温度,而对其他测试集使用温度0,这可能不符合Sober Reasoning等推荐的较高温度评估,且温度0在长文本生成时可能导致输出退化。 4. Learning to Reason without External Rewards 这篇论文提出了一种名为INTUITOR的方法,该方法在群体相对策略优化(GRPO)中用自确定性得分替代外部奖励,实现了完全无监督学习,并声称INTUITOR能在数学基准上达到GRPO的性能,并在代码生成等域外任务上实现更好的泛化。作者对比数据后发现,该论文报告的Qwen2.5-3b模型在GSM8k上的RL后准确率为79.2%,而其报告的基线为67.3%,但官方(少样本)准确率已达到79.1%。在CruxEval上,RL后为41.6%,报告基线23.6%,而官方数据为36.5%。这意味着RL后的模型性能似乎并未超越其原始模型在官方(少样本)评估中的表现。因此,不清楚RL是否教会了模型新的推理能力,可能仅仅是修复了导致基线被低估的问题,例如由于其报告的基线评估是零样本,可能存在格式遵循问题。由于论文未完全报告评估设置(如温度、提示、格式遵循百分比),具体原因难以确定。 5. Verifree: Reinforcing General Reasoners without Verifiers 该论文提出了一种名为VeriFree的无验证器方法,它绕过答案验证,直接通过RL最大化生成参考答案的概率,并声称VeriFree在MMLU-Pro、GPQA、数学基准等评估中能匹配甚至超越基于验证器的方法。作者指出,尽管该论文的RL方法(例如Qwen3-4b在MATH500上达到74.8%)确实超过了其所用的Qwen3基础模型的官方报告数字(此处作者自行评估Qwen3-4b在MATH500的官方thinking accuracy为97.0%,但Verifree原文表格的reported thinking accuracy是84.4%,实际pre-RL Verifree用的似乎更低,为73.4%)。然而,论文中报告的Qwen3基础模型、非思考模式和思考模式的参考准确率均被低估。例如,作者自行评估Qwen3-4b在MMLU-Pro上的零样本思考模式准确率为67.5%,而论文报告的思考准确率为62.7%;在GPQA上作者评估为48.6%,论文报告为31.8%。这意味着尽管VeriFree方法本身可能具有潜力,但其图表中错误的参考准确率会误导读者对其功效的判断。评估可能出错的一个原因是论文在多数情况下报告使用温度0进行采样,而Qwen3模型页面明确指出不应这样做,因其可能导致输出退化。 6. Unreasonable Effectiveness of Entropy Minimization ...
强化学习开始做预训练了!
《Reinforcement Pre-Training》 传统的大模型预训练虽然可靠,但可能只是在学习表面的文本关联性,而用于对齐的强化学习(RL)又面临数据昂贵、难以规模化的问题。这篇论文最具启发性的做法是,从根本上“重塑”了预训练任务。它不再将“预测下一个词”看作一个简单的分类任务,而是将其提升为一个需要“推理”的过程。模型被激励去思考为什么下一个词是这个,而不是那个,并且只要预测正确,就能从训练数据本身获得一个可验证的奖励。这种方法巧妙地将海量的无标注文本数据,转变成了强化学习的训练场,既解决了RL的规模化问题,又可能让模型学到更深层次的推理能力,而不仅仅是记忆。论文用“樱桃蛋糕”的比喻(将RL融入预训练蛋糕本身)来对比传统的“蛋糕上的樱桃”(RL作为后续微调),生动地说明了这一范式的根本性转变。 现代语言模型的基础——标准的“下一个词预测”(NTP)任务,其目标函数是最大化文本序列的对数似然概率,即 “带可验证奖励的强化学习”(RLVR),其目标函数是最大化从环境中获得的期望奖励 。 通过并列这两种方法,读者可以清晰地看到:一个依赖于庞大的数据进行自监督学习,另一个则依赖于带有明确答案的标注数据和奖励信号进行学习。这个对比凸显了一个核心矛盾:规模化与强反馈之间的差距,而RPT正是在试图弥合这个差距。 强化学习预训练 首先,在任务定义上,创造性地提出了“下一词元推理”(Next-Token Reasoning)任务。模型在预测下一个词 $y_t$ 之前,必须先生成一段“思考链”(chain-of-thought)$c_t$ 。这种做法,如图2所示,强迫模型在输出最终答案前进行一系列的头脑风暴、自我批判和修正,从而将庞大的预训练语料库转变为一个巨大的推理问题集。其次,在训练机制上,它采用了在线强化学习(on-policy RL)。模型会针对一个上下文,生成多条(实验中为8条)不同的“思考轨迹” ,然后根据最终预测的词是否与真实答案一致来给予奖励。这里的奖励函数设计也很巧妙,采用“前缀匹配奖励”,即预测的字节序列只要是真实答案的有效前缀就给予奖励,这优雅地处理了预测可能跨越多个词元的情况 。最后,在预训练设置中,一个非常实用的关键做法是“数据过滤” 。研究者用一个较小的代理模型计算每个词元的预测熵,并过滤掉那些熵很低(即很容易预测)的词元。这使得计算成本高昂的强化学习过程可以专注于那些真正需要复杂推理才能解决的“硬骨头”,极大地提升了训练效率。 实验 本章通过一系列详实的实验,验证了RPT范式的有效性,其中几个发现尤其具有启发意义。 第一,在语言建模能力上,经过RPT训练的14B(140亿参数)模型,其预测下一个词的准确率,不仅远超同等规模的基线模型,甚至能媲美一个大得多的32B模型。这强烈暗示了RPT可能是通往更强模型能力的一条“捷径”,用更少的参数实现了更强的性能。 第二,RPT展现了优秀的“规模化特性”(Scaling Properties)。实验数据显示,其性能随着RL计算量的增加,呈现出非常平滑且可预测的幂律增长(公式为 $P(C)=\frac{A}{C^{\alpha}}+P^{*}$)。这是一个至关重要的结论,因为它表明RPT是一个可靠的、可持续的提升模型能力的方法,只要投入更多计算,就能获得更好的模型。 第三,RPT预训练过的模型是更好的“强化学习起点” 。在后续针对下游任务的RL微调中,RPT模型能达到更高的性能上限,而如果对基线模型继续做传统的预训练,其推理能力反而会下降 。 最后,通过对模型“思考过程”的分析,发现RPT诱导出的推理模式与常规解决问题的模式不同,它更多地使用“假设”和“演绎”等探索性思维。案例分析也表明,模型并非在简单地套用模板,而是在进行真正的审议,包括分析上下文、生成多种可能性并进行权衡,这证实了RPT确实在培养更深层次的理解能力。