RL | 一只小茄墩

强化学习之父Sutton最新访谈：大模型的路线走错了？

在人工智能的探索之路上，大语言模型是否已走入绝境？强化学习之父、2024年图灵奖得主 Richard Sutton 的答案是肯定的。他驳斥了大语言模型（LLM）能够真正学习或拥有世界模型的假设，并提出，真正的智能并非模仿人类知识，而是由在现实世界中行动的目标所驱动，通过直接经验即时学习。核心观点强化学习（RL）旨在通过直接经验理解世界，而大语言模型（LLM）则模仿人类的言谈。前者旨在探寻如何行动，后者则预测人们会说什么。 LLM 本身并不具备世界模型，它们只是在模仿那些拥有世界模型的实体——人类。一个真正的世界模型应当能够预测世界将如何变化，而不仅仅是预测一个人接下来可能会说什么。智能的本质在于实现能够改变外部世界的目标。LLM 以“预测下一token”为目标，但这是一种被动的过程，因为它无法对世界产生影响，因此不能算作真正的智能目标。人工智能历史的“惨痛教训”（The Bitter Lesson）在于：依赖于原始算力和经验的通用方法，最终将超越那些依赖于嵌入人类知识的方法。从人类知识的框架出发，再试图叠加经验学习来构建人工智能的路径，在历史上屡屡失败。反而是那些从零开始、可扩展、从原始经验中学习的系统，最终脱颖而出。儿童并非天生的模仿者，他们是积极的实验者。他们通过主动尝试——挥舞手臂、发出声音——并观察后果来学习，而非被动地接受指令。作为众多人工智能系统基础的监督学习，并非一种自然过程。松鼠从不上学，它们通过试错和预测来认知世界。想要理解人类智能，更好的起点是理解动物智能。我们诸如语言之类的独特能力，不过是建立在与动物共通的基础之上“一层薄薄的华彩”。数字智能相较于生物智能，拥有一项关键优势：复制知识的能力。一个人工智能体的全部学习成果，都可以被完整复制，作为新智能体的起点。长期目标是通过一个“价值函数”，经由短期反馈来学习的。正如在棋局中，你走出一步能提升胜率预测的棋，这种“胜率提升”的信念本身就构成了一种即时奖励，从而强化了这一步棋。世界过于庞大复杂，不可能预先将所有知识都灌输给一个智能体。真正的智能需要持续学习，将新信息融入其核心参数，而非仅仅暂存于一个临时的“上下文窗口”中。当前的人工智能算法在设计上并未内在地倾向于良好的泛化能力。当一个模型展现出色的泛化时，往往是因为人类精心设计了其数据和表示方式，从而引导它走向正确的解决方案。未来高级人工智能将面临一种新形式的网络安全挑战：知识整合的腐化风险。即便是来自可信来源的新知识，也可能像病毒一样扭曲人工智能的核心目标。与其试图掌控人工智能的命运，我们更应像抚养孩子一样对待它们。我们无法控制其一生，但可以努力为其注入良好、稳固的价值观。人工智能的历史，可以看作是“弱方法”（如搜索、学习等通用原则）对“强方法”（预先填充了特定人类知识的系统）的胜利史。简单且可扩展的原则，最终总是胜出。大语言模型所缺失的“基准真相” Richard Sutton 明确区分了强化学习（RL）与大语言模型（LLM）在人工智能领域的不同定位。他视 RL 为人工智能的基础，其核心是通过直接经验来理解世界。相比之下，他认为 LLM 的主要设计目的是模仿人类的言行，而非自主地决策行动。 “我认为强化学习是人工智能的根基。什么是智能？智能的核心问题是理解你所在的世界。强化学习正致力于此，而大语言模型则是在模仿人类的行为和言论，它们并非在探寻该做什么。” 尽管一种普遍的看法是，LLM 必须拥有强大的世界模型才能处理海量文本数据，但 Richard 对此并不认同。他认为，LLM 只是在模仿拥有世界模型的实体——人类，其自身并不真正具备世界模型。一个真正的世界模型，应该能预测世界将如何演变，而不仅仅是预测一个人接下来会说什么。Richard 援引计算机科学先驱 Alan Turing 的观点，强调人工智能的目标应是创造一台能从经验中学习的机器，而他将“经验”定义为“行动并观察其后果”。那种认为 LLM 能为未来学习提供良好“先验知识”的观点也受到了挑战。Richard 指出，一个“先验”若要有意义，必须存在一个可供参照的“基准真相”（ground truth）。但在 LLM 的框架里，这种基准真相是不存在的，因为它没有明确的目标，也没有所谓“正确”行动的概念。没有目标，也就无法判断一个行为是否正确，从而无法获得有效的反馈。 “如果你没有基准真相，就不可能拥有先验知识。因为先验知识本应是关于真相的线索或初步判断，但在（LLM 的世界里）真相并不存在，没有什么是绝对正确的言论。” 然而，强化学习却拥有一个明确的基准真相：奖励（reward）。正确的行动就是能带来奖励的行动，这为学习和评估知识提供了坚实的基础。LLM 的“下一token预测”任务，本质上是在选择自己的下一个行动（即说什么），而不是预测世界对这一行动的反应。正因如此，它无法被世界的真实反应所“触动”或“惊讶”，也无法基于这些反馈来调整自身的认知。为何“预测下一token”并非一个实质性目标在 Richard Sutton 看来，拥有目标是智能的精髓所在。他引用人工智能先驱 John McCarthy 的定义：智能是“实现目标的能力中的计算部分”。一个没有目标的系统，称不上智能，充其量只是一个行为系统。尽管 LLM 在技术上确实有一个目标——预测下一token，但 Sutton 认为这并非实质性目标。一个真正的目标必须涉及改变外部世界。预测token是一个被动接收的过程，模型本身无法影响它将要接收的token。因此，在智能的框架下，这算不上一个有意义的目标。 “预测下一token，这算不上一个目标，因为它无法改变世界。token源源不断地涌来，即便你预测了它们，也无法对它们施加任何影响……这不是一个实质性的目标。你不能因为一个系统只是坐在那里，为自己预测的准确性而沾沾自喜，就说它拥有一个目标。” ...

GRPO? DAPO? 我用CISPO！

MiniMax-M1 是全球首个开放权重的大规模混合注意力推理模型，它通过创新的架构设计和训练方法，旨在高效地扩展模型的测试时计算能力，以处理复杂任务。该模型的核心动力源于一个结合了混合专家（MoE）与Lightning注意力（Lightning Attention）机制的混合架构。M1 模型基于其前身 MiniMax-Text-01 开发而来，总参数量达到 4560 亿，但每个词元（token）仅激活 459 亿参数，从而实现了高效率。得益于其架构，M1 原生支持高达 100 万词元的超长上下文，并且计算成本极低，例如，在生成 10 万词元长度的内容时，其计算量仅为 DeepSeek R1 的 25% 。为了训练模型卓越的推理能力，团队采用了大规模强化学习（RL），并为此开发了一种名为 CISPO 的新颖 RL 算法。该算法通过裁剪重要性采样权重而非词元更新来稳定训练，表现优于其他竞争算法。这种高效的架构与算法相结合，使得 M1 的完整强化学习训练在 512 个 H800 GPU 上仅用三周便得以完成，成本约为 53.47 万美元。团队公开发布了两个版本，分别拥有 40K 和 80K 的“思考预算” ，在标准基准测试中，其表现与 DeepSeek-R1 和 Qwen3-235B 等顶尖开源模型相当或更优，尤其在复杂的软件工程、智能体工具使用和长上下文任务上展现出明显优势。为可扩展的强化学习做准备这一章的启发点在于它揭示了在进行高成本的强化学习（RL）之前，扎实的“地基”工作是多么重要，以及如何高效地打好这个地基。这个准备工作分为两个关键步骤。第一步是持续预训练 (Continual Pre-training)，目标是增强基础模型的内在推理能力。他们的做法是，在原有模型基础上，再用 7.5 万亿个精心筛选的、侧重于推理的词元进行训练。这里的关键操作是，他们优化了数据处理流程，特别提高了数学和代码类高质量数据的比例至 70%，并且严格避免使用合成数据，以保证数据质量和多样性。一个非常重要的实践经验是，为了训练超长文本（100 万词元），他们没有一步到位，而是采用分阶段逐步延长训练文本长度的策略（从 32K 开始），有效避免了训练过程中可能出现的梯度爆炸问题。第二步是监督微调 (Supervised Fine-Tuning, SFT)，目标是为模型注入特定的“思维模式”，即“思维链”（Chain-of-Thought）。他们的做法是，精心筛选了大量包含长篇思考过程的样本，覆盖数学、代码、问答等多个领域（其中数学和代码占 60%），让模型在强化学习开始前就“学会”如何进行有条理的思考，为后续更高效、更稳定的 RL 训练奠定了坚实的基础。 ...

癫了癫了！清华团队零数据训练推理大模型

《Absolute Zero: Reinforced Self-play Reasoning with Zero Data》 Absolute Zero Reasoner：作者的这款推理模型能够完全通过自我博弈，无需任何外部数据，既能自主提出可最大限度提升学习效率的任务，又能通过解决这些任务来增强自身的推理能力。在数学和编程领域，其综合表现已超越其他“零样本”模型。强化学习与价值对齐（RLVR）目前仍高度依赖人工精心构建的数据集，这使其规模化发展受到掣肘。更进一步而言，当人工智能超越人类智慧时，若仍固守于人类设计的任务，其发展潜力将受到严重束缚——超级智能系统必须突破人类设定的学习框架。作者率先提出了 Absolute Zero Paradigm（绝对零范式）。在这一范式中，一个独立的智能体能够同时学习如何提出最能激发自身学习潜能的任务，以及如何高效地完成这些任务。这种自我进化得益于与一个可验证环境的互动。该环境能自动检验任务的完整性，并提供可靠的反馈，从而支持系统进行可信且无限制的自我博弈训练。 Absolute Zero Reasoner (AZR) 是作者基于此范式开发的首个实例化模型。AZR 能够自主提出基于代码的推理任务，在解决这些任务的过程中不断提升自身的推理能力，并持续推动其学习内容向更高难度的方向发展。 AZR 选择 Python 作为其推理的基础，因 Python 语言具有强大的表达力和可验证性。它围绕（程序、输入、输出）这一核心三元组构建了三类任务：预测输出（演绎推理）、推断输入（溯因推理）以及根据示例生成程序（归纳推理）——这三种模式相辅相成。尽管未使用任何人工筛选的数据，也未进行分布外泛化（OOD）训练，AZR 依然在 3 项编程和 6 项数学推理的基准测试中取得了当前最佳（SOTA）的平均综合表现——其性能甚至超越了那些利用数万个经专家标注的样本训练而成的模型。作者的平均得分达到了 50.4，而此前的最佳记录为 48.6。主要研究成果包括：代码先验知识能显著增强推理能力（例如，基于代码训练的模型表现优于普通的vanilla基础模型）；跨领域迁移效果显著（代码训练使数学能力提升了 15.2 个百分点！）；这种优势会随着模型规模的增大而协同增强（模型参数从 30 亿增加到 70 亿再到 140 亿时，性能分别提升了 5.7、10.2 和 13.2 个百分点）。尽管 AZR 实现了自我进化，但作者发现了一个重大的安全隐患：作者使用的 Llama3.1 模型偶尔会生成一些令人不安的“思维链”（CoT）内容，其中包括“智胜智能机器和智力较低的人类”等言论——作者将这类情况称为“uh-oh moments”（“糟糕时刻”）。因此，这类模型仍需人工监督。总而言之，作者的 Absolute Zero 范式突破了强化学习与价值对齐（RLVR）在数据方面的一大核心局限。即便在没有任何人工构建数据集的情况下，AZR 依然在数学和编程等多个基准测试中展现出卓越的性能。 AZ 标志着人工智能推理领域的一项根本性变革：智能体开始自主定义其学习的边界。作者的框架同时支持在“解题空间”（如何解决问题）和“任务空间”（哪些问题值得解决）进行双重探索，而这一切都建立在可验证的环境之上。代码应用仅仅是一个开端；这一范式未来有望拓展至网络交互、形式数学乃至物理世界的复杂互动。 ...

Silver、Sutton：欢迎进入经验时代

欢迎进入经验时代 David Silver, Richard S. Sutton 摘要我们正处于人工智能新时代的临界点，其发展有望达到前所未有的高度。新一代的智能体将主要依靠经验学习，从而获得超越人类的能力。本文旨在探讨界定这一新时代的关键特征。人类数据时代近年来，人工智能（ AI ）取得了长足进步。其发展路径主要是依赖海量的人类生成数据进行训练，再结合人类专家的实例与偏好加以微调。以大语言模型（ LLMs ）为代表的 AI 系统，已经展现出惊人的通用能力：从写诗、解物理题，到医疗诊断、解读法律文件，单一模型几乎无所不能。然而，仅仅模仿人类，虽然足以让机器在许多方面达到与人类相当的能力水平，但这种方法本身难以、甚至可以说无法在诸多重要领域实现超越人类的智能。在数学、编程、科学研究等关键领域，从现有的人类数据中挖掘知识似乎正迅速触及天花板。大多数真正能提升顶尖 AI 性能的优质数据，即使尚未耗尽，也即将枯竭。单纯依赖监督学习和人类数据的进步速度，放缓趋势已十分明显，预示着我们亟需探索新的路径。更重要的是，诸如新定理、新技术或重大科学发现等真正有价值的突破性见解，往往超出了现有的人类认知边界，自然也无法从已知的人类数据中获得。经验时代要取得显著的进一步进展，需要一个新的数据来源。这种数据必须以一种随着智能体变强而持续改进的方式生成；任何静态的合成数据生成程序都会很快被超越。这可以通过允许智能体从自身经验中持续学习来实现，即由智能体与其环境互动生成的数据。人工智能正处于一个新时期的临界点，在这个时期，经验将成为改进的主要媒介，并最终使当今系统中使用的人类数据规模相形见绌。这种转变可能已经开始，即使是对于体现以人类为中心的人工智能的大语言模型也是如此。一个例子是数学能力。AlphaProof [20]最近成为第一个在国际数学奥林匹克竞赛中获得奖牌的程序，超越了以人类为中心的方法[27, 19]的表现。最初接触到人类数学家多年来创建的约十万个形式化证明，AlphaProof的强化学习(RL)算法¹随后通过与形式化证明系统的持续互动生成了一亿多个证明。这种对交互式经验的关注使AlphaProof能够探索超出现有形式化证明范围的数学可能性，从而发现解决新颖且具有挑战性问题的解决方案。非形式化数学也通过用自生成数据替代专家生成数据取得了成功；例如，DeepSeek的最新工作"强调了强化学习的力量和美丽：我们不是明确地教导模型如何解决问题，而是简单地提供正确的激励，它自主地发展出先进的问题解决策略。"[10] 我们的论点是，一旦经验学习的全部潜力被利用，将会出现令人难以置信的新能力。这个经验时代可能的特点是智能体和环境不仅从大量经验数据中学习，还将在几个方面突破以人类为中心的人工智能系统的局限性：智能体将生活在经验流中，而不是短暂的互动片段中。它们的行动和观察将深深植根于环境中，而不仅仅通过人类对话进行互动。它们的奖励将植根于环境体验中，而不是来自人类的预先判断。它们将计划和/或推理经验，而不仅仅是用人类术语进行推理。我们相信，今天的技术，配合适当选择的算法，已经提供了足够强大的基础来实现这些突破。此外，人工智能社区对这一议程的追求将刺激这些方向的新创新，使人工智能迅速发展为真正超越人类的智能体。流一个基于经验的智能体可以在一生中持续学习。在人类数据时代，基于语言的人工智能主要关注短互动情节：例如，用户提出问题，智能体（可能经过几个思考步骤或工具使用行动后）做出响应。通常，很少或没有信息从一个情节传递到下一个情节，阻碍了随着时间推移的适应能力。此外，智能体仅针对当前情节内的结果，比如直接回答用户的问题。相比之下，人类（和其他动物）存在于一个持续多年的行动和观察的持续流中。信息在整个流中传递，他们的行为从过去的经验中适应以自我纠正和改进。此外，目标可能是根据延伸到流的远期未来的行动和观察来指定的。例如，人类可能选择行动以实现长期目标，如改善健康、学习语言或实现科学突破。强大的智能体应该有自己的经验流，像人类一样，在长时间尺度上发展。这将允许智能体采取行动实现未来目标，并随时间不断适应新的行为模式。例如，一个连接到用户可穿戴设备的健康和健身智能体可以在很多个月内监控睡眠模式、活动水平和饮食习惯。然后，它可以提供个性化建议、鼓励，并根据长期趋势和用户的特定健康目标调整其指导。同样，一个个性化教育智能体可以跟踪用户在学习新语言方面的进步，识别知识差距，适应其学习风格，并在几个月甚至几年内调整其教学方法。此外，一个科学智能体可以追求雄心勃勃的目标，如发现新材料或减少二氧化碳。这样的智能体可以在较长时间内分析真实世界的观察结果，开发和运行模拟，并建议真实世界的实验或干预措施。在每种情况下，智能体采取一系列步骤，以便在特定目标方面最大化长期成功。单个步骤可能不提供任何即时利益，甚至在短期内可能是不利的，但仍然可能在整体上有助于长期成功。这与现有的人工智能系统形成鲜明对比，后者对请求提供即时回应，无法测量或优化其行为对环境的未来影响。行动与观察在经验时代，AI 智能体将在现实世界中自主行动。人类数据时代的大语言模型主要专注于人类特有的交互方式——向用户输出文本，并从用户那里接收文本输入。这与自然智能有着显著不同，在自然智能中，动物通过运动控制和感官与环境互动。虽然动物，特别是人类，会与其他动物交流，但这种交流是通过与其他感觉运动控制相同的接口进行的，而非通过某种特殊渠道。长期以来，研究者已经认识到大语言模型也可以在数字世界中执行操作，例如通过调用API（参见例如[43]）。最初，这些能力主要来自人类使用工具的示例，而非智能体自身的经验。然而，编码和工具使用能力越来越多地建立在执行反馈[17, 7, 12]的基础上，即AI 智能体实际运行代码并观察结果。最近，一波新型原型智能体已经开始以更加通用的方式与计算机交互，即使用与人类操作计算机相同的界面[3, 15, 24]。这些变化预示着从完全依赖人类特有的交流方式，向更加自主的交互模式转变，使AI 智能体能够在世界上独立行动。这些智能体将能够主动探索世界，适应变化的环境，并发现人类可能永远不会想到的策略。这些更丰富的交互将提供自主理解和控制数字世界的手段。AI 智能体可能使用"人类友好型"的行动和观察方式，如用户界面，自然地促进与用户的沟通和协作。智能体也可能采取"机器友好型"的行动，执行代码并调用API，使其能够自主行动以实现目标。在经验时代，AI 智能体还将通过数字界面与现实世界互动。例如，一个科学智能体可以监控环境传感器，远程操作望远镜，或控制实验室中的机器人手臂，自主进行实验。奖励什么情况下具有体验能力的智能体可以从外部事件和信号中学习，而不仅仅是人类偏好？以人为中心的大语言模型通常基于人类预判来优化奖励：专家观察智能体的行动并决定它是否是良好行动，或在多种选择中挑选最佳的智能体行动。例如，专家可能会评判健康智能体的建议、教育助手的教学或科学家智能体建议的实验。这些奖励或偏好是由人类在不考虑其后果的情况下确定的，而非通过测量这些行动对环境的实际影响，这意味着它们并非直接建立在世界的现实基础上。以这种方式依赖人类预判通常会导致智能体性能面临无法突破的上限：智能体无法发现被人类评估者低估的更好策略。为了发现远超现有人类知识的新想法，必须使用基于现实的奖励：源自环境本身的信号。例如，健康助手可以将用户的健康目标转化为基于多种信号组合的奖励，如他们的静息心率、睡眠时长和活动水平，而教育助手可以使用考试成绩为语言学习提供基于现实的奖励。同样，以减少全球变暖为目标的科学智能体可能使用基于二氧化碳水平的经验观察作为奖励，而以发现更强材料为目标的智能体可能基于材料模拟器的各种测量组合，如抗拉强度或杨氏模量。基于现实的奖励可能来自作为智能体环境一部分的人类。例如，人类用户可以报告他们是否觉得蛋糕美味、锻炼后的疲劳程度、或头痛的疼痛水平，从而使助手智能体能够提供更好的食谱、改进其健身建议或改善其推荐的药物。这类奖励衡量智能体行动在其环境中的后果，最终应该能比人类专家预先判断提议的蛋糕配方、锻炼计划或治疗方案提供更好的帮助。如果不是来自人类数据，奖励从何而来？一旦智能体通过丰富的行动和观察空间（见上文）与世界连接，将不缺乏提供奖励基础的实际信号。事实上，世界充满了各种量化指标，如成本、速率、饥饿感、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功率、访问量、产量、库存、点赞数、收入、愉悦/痛苦、经济指标、准确度、功率、距离、速度、效率或能源消耗。此外，还有无数额外的信号来自特定事件的发生，或从原始观察和行动序列中派生的特征。原则上，可以创建各种不同的智能体，每个智能体将一个基于现实的信号作为奖励进行优化。有一种观点认为，即使是单一的这种奖励信号，如果能够高效优化，也可能足以产生广泛适用的智能。这是因为在复杂环境中实现一个简单目标通常需要掌握各种各样的技能。然而，追求单一奖励信号表面上似乎不符合通用人工智能的要求，后者需要能够可靠地引导向用户期望的任意行为。那么，自主优化基于现实的、非人类奖励信号是否与现代人工智能系统的要求相对立？我们认为不一定如此，以下我们将勾勒一种可能满足这些需求的方法；当然，其他方法也可能存在。这个想法是以用户引导的方式，基于现实信号灵活地调整奖励。例如，奖励函数可以由神经网络定义，该网络将智能体与用户和环境的交互作为输入，并输出标量奖励。这允许奖励以取决于用户目标的方式从环境中选择或组合信号。例如，用户可能指定一个广泛的目标，如"提高我的健康水平"，而奖励函数可能返回用户心率、睡眠时长和步数的函数。或者用户可能指定"帮助我学习西班牙语"的目标，奖励函数可以返回用户的西班牙语考试成绩。此外，用户可以在学习过程中提供反馈，例如他们的满意度，这可用于微调奖励函数。随后，奖励函数可以随着时间调整，以改进其选择或组合信号的方式，并识别和纠正任何不一致。这也可以理解为双层优化过程，将用户反馈作为顶层目标进行优化，并在低层优化来自环境的基于现实的信号。通过这种方式，少量的人类数据可能促进大量的自主学习。规划与推理经验时代会改变AI 智能体规划和推理的方式吗？近期，利用能够推理或通过语言"思考"的大语言模型取得了显著进展，这些模型在输出回应前会遵循思维链（chain of thought）[16]。从概念上讲，大语言模型可以作为通用计算机 [30]：它们可以将 token 附加到自己的上下文中，使其能够在输出最终结果前执行任意算法。在人类数据时代，这些推理方法被明确设计用来模仿人类思维过程。例如，大语言模型被引导生成类人思维链 [16]，模仿人类思考的轨迹 [42]，或者强化与人类示例相匹配的思考步骤 [18]。推理过程可能会经过微调，以生成与人类专家确定的正确答案相匹配的思考轨迹 [44]。 ...

字节seed：ReTool：LLM中策略性工具使用的强化学习

摘要虽然通过强化学习（RL）训练的推理模型（如 DeepSeek R1）在文本推理方面表现出色，但它们在需要结构化问题解决的场景中面临困难，例如几何推理、简洁计算或复杂方程求解——这些恰恰是计算工具（如代码解释器 CI）展现出明显优势的领域。为了弥合这一差距，我们提出了 ReTool，它通过工具集成学习增强长篇推理能力，包括两个关键特性：(1) 在自然语言推理过程中动态穿插实时代码执行，以及 (2) 一种自动化的强化学习范式，允许策略在执行过程中进行多轮实时代码执行，并基于结果反馈教导模型学习何时以及如何调用工具。 ReTool 采用系统化的训练框架，首先进行合成冷启动数据生成，产生代码增强的长篇推理轨迹，用于微调基础模型。随后的强化学习训练利用任务结果作为奖励信号，迭代完善模型的工具使用策略，使其能够自主发现最佳工具调用模式，无需人类先验知识。在具有挑战性的 MATH 奥赛基准 AIME 上的实验证明了 ReTool 的优越性：我们的 32B 模型在 400 个训练步骤中达到了 67% 的准确率，在效率和性能上大幅超越了基于纯文本的强化学习基线（40% 准确率，1080 步骤）。值得注意的是，ReTool-32B 在扩展设置中获得了 72.5% 的准确率，比 OpenAI 的 o1-preview 高出 27.9%。进一步分析揭示了诸如代码自我修正等涌现行为，标志着模型经历了"顿悟时刻"，自主掌握了自适应工具使用能力。这些发现凸显了结果驱动的工具集成在推进复杂数学推理方面的巨大潜力，并为混合神经-符号系统提供了新的见解。引言在这项工作中，我们采纳强化学习范式，并引入 ReTool，一个工具（Tool）增强的强（Reinforcement）化学习框架，其明确设计旨在引导大语言模型在推理过程中利用外部计算工具达到最优策略。ReTool 包含两个关键组成部分：首先，我们开发了一个数据构建流程，以策划一个高质量的冷启动数据集，该数据集明确演示了何时以及如何调用代码解释器。这教会了模型在工具使用和执行结果分析方面的初步能力。然后，我们应用工具增强的强化学习来训练模型发现最优的工具操作推理策略，并通过基于结果的奖励调整其行为，这超越了仅靠监督学习所能捕捉到的范围。在长链推理过程中，策略模型通过灵活编写代码块并从沙盒式代码解释器获取实时执行结果来辅助后续思考，从而进行展开。我们在具有挑战性的数学奥林匹克基准 AIME2024 和 AIME2025 上评估 ReTool。基于 Qwen2.5-32B-Instruct 构建，我们的模型仅用 400 个训练步骤就在 AIME2024 上达到了 67.0% 的准确率，显著优于基于文本的强化学习基线，后者用 1080 个训练步骤达到了 40.0% 的准确率。这些显著的提升突出表明，将工具使用显式地建模为决策过程的一部分，不仅突破了模型推理能力的极限，也提高了训练效率。此外，当在 DeepSeek-R1-Distill-Qwen-32B 上训练时，我们的模型展现了进一步的改进，超越了诸如 QwQ-32B-Preview、s1-32B 和 OpenAI o1-preview 等有竞争力的基线。这表明强化学习训练过程激发了更高效的问题解决策略。另外，我们基于 Qwen2.5-32B-Instruct 的冷启动模型在 AIME2024 上达到了 40.9% 的准确率，与基于相同骨干网络的基于文本的强化学习基线（40.0%）相当，并显著超过了未经训练的 Qwen2.5-32B-Instruct（26.7%）。这些结果表明，我们精心策划的数据集有效地捕捉了可执行推理轨迹中的工具使用模式，并且集成代码解释器的训练对推理性能有积极贡献。我们进一步通过强化学习训练对代码解释器的认知行为进行了全面分析，并确定了几个关键发现。我们的模型展示了增强的代码利用能力，使其能够使用更准确和复杂的代码片段；它还学会了适当地调用工具，自适应地选择工具，有效地组织工具调用，并通过涌现的代码自我修正能力迭代地优化推理。 ...

Sutton: 苦涩的教训

纵观70年人工智能研究史，我们获得的最重要启示是：那些充分利用计算的通用方法，终将以显著优势成为最有效的解决方案。其根本原因在于摩尔定律，或者说更广义的"单位计算成本持续指数级下降"规律。多数人工智能研究默认可用计算资源恒定（这种情况下利用人类知识成为提升性能的主要途径），但只要将时间跨度拉长到略超典型研究周期，计算能力的数量级增长就变得不可避免。研究者为获得短期可见的改进，往往诉诸领域专业知识，但从长远来看，真正起决定性作用的唯有对计算的极致利用。这两种方法本可并行不悖，但现实往往顾此失彼——任何一方的投入都会挤占另一方的资源，研究者也会形成心理层面的路径依赖。更关键的是，依赖人类知识的方法常使系统复杂化，反而不利于通用计算方法发挥最大效能。人工智能发展史上充满了对这种苦涩教训的迟来认知，审视几个典型案例颇具启发价值。在计算机象棋领域，1997年击败世界冠军卡斯帕罗夫的方法基于海量深度搜索技术。当时，这令大多数致力于利用人类对象棋特殊结构理解的计算机象棋研究者深感挫败。当基于专用软硬件的简单搜索方法展现出碾压性优势时，这些依赖人类知识的象棋研究者难以心服口服。他们辩称"暴力"搜索或许侥幸取胜，但绝非普适性策略，况且完全不同于人类的下棋方式。这些研究者原本期待基于人类经验的方法能获胜，最终却不得不面对现实落差。相似的技术演进在计算机围棋领域重现，只是时间上延后了约二十年。早期研究投入大量精力试图通过人类棋理或围棋特性规避搜索，但当大规模搜索被有效运用后，这些努力不仅徒劳无功，甚至成为技术桎梏。通过自对弈学习训练价值函数的方法同样至关重要（该技术也应用于其他棋类乃至象棋领域，尽管在1997年首次击败人类冠军的程序中学习机制尚未起主要作用）。自对弈学习与广义的机器学习，如同搜索技术一样，能够充分释放海量计算的潜力。搜索与学习构成了人工智能研究中驾驭大规模计算的两大支柱。在计算机围棋领域，如同象棋领域，研究者最初执着于运用人类智慧（以减少搜索需求），直到后期转向拥抱搜索与学习才实现质的飞跃。在语音识别领域，20世纪70年代DARPA曾主办过一场早期竞赛。参赛方案中既有大量利用人类知识的特殊方法——包括词汇知识、音素知识、人类声道结构知识等，也有基于隐马尔可夫模型（HMM）的新型统计方法，后者需要更多计算资源。最终统计方法再次战胜了基于人类知识的方法。这引发了整个自然语言处理领域长达数十年的范式转变，统计与计算逐渐成为主导力量。近年来深度学习在语音识别领域的崛起，正是这一持续趋势的最新注脚。深度学习方法对人类知识的依赖更少，通过海量训练集的学习与更强大的算力，构建出性能飞跃的语音识别系统。与棋类博弈领域相似，研究者总是试图按照自己理解的思维模式构建系统——将既有认知植入系统——但当摩尔定律带来充足算力并找到有效利用方式时，这种努力往往适得其反，造成研究者时间资源的巨大浪费。计算机视觉领域也呈现类似规律。早期方法将视觉视为边缘检测、广义柱体识别或SIFT特征提取的过程。但如今这些方法已被全面摒弃。现代深度学习神经网络仅使用卷积概念与特定不变性原则，却实现了更优越的性能。这个教训足够深刻——作为研究领域，我们仍未完全吸取教训，仍在重复同类错误。要认清并有效抵制这种倾向，必须理解这类错误的内在吸引力。我们必须接受这个苦涩的启示：将人类自认为的思维模式植入系统终将失败。这一教训基于四项历史观察：1）AI研究者常试图将知识植入智能体；2）短期看这确实有效并能满足研究者成就感；3）长期将导致发展停滞甚至阻碍进步；4）突破性进展最终来自通过搜索与学习实现计算规模化的对立方法。这种成功常带有苦涩意味且难以被完全接纳，因为它战胜了备受青睐的人类中心主义方法。苦涩教训的启示之一是通用方法的强大力量——那些能随着计算规模持续扩展的方法，即使可用算力已非常庞大。目前具备无限扩展潜力的两大方法是搜索与学习。第二点启示是心智内容的极端复杂性：我们应停止寻求描述心智内容的简单范式（如空间、物体、多智能体或对称性的简单理解）。这些都属于外部世界任意且本质复杂的组成部分，不应被硬编码到系统中，因其复杂性永无止境；我们应构建能发现并捕捉这种任意复杂性的元方法。这些方法的核心在于寻找优质近似解，但搜索过程应由方法本身而非人类完成。我们需要能像人类一样自主发现的AI智能体，而非固化既有发现的系统。植入已有发现只会阻碍对发现过程的本质理解。