Silver、Sutton:欢迎进入经验时代

欢迎进入经验时代 David Silver, Richard S. Sutton 摘要 我们正处于人工智能新时代的临界点,其发展有望达到 前所未有的高度。新一代的智能体 将主要 依靠经验学习,从而获得 超越人类的能力。本文旨在探讨界定这一 新时代的关键特征。 人类数据时代 近年来,人工智能( AI )取得了长足进步。其发展路径主要是依赖海量的人类生成数据进行训练,再结合人类专家的实例与偏好加以微调。以大语言模型( LLMs )为代表的 AI 系统,已经展现出惊人的通用能力:从写诗、解物理题,到医疗诊断、解读法律文件,单一模型几乎无所不能。 然而,仅仅模仿人类,虽然足以让机器在许多方面达到与人类相当的能力水平,但这种方法本身难以、甚至可以说无法在诸多重要领域实现超越人类的智能。在数学、编程、科学研究等关键领域,从现有的人类数据中挖掘知识似乎正迅速触及天花板。大多数真正能提升顶尖 AI 性能的优质数据,即使尚未耗尽,也即将枯竭。单纯依赖监督学习和人类数据的进步速度,放缓趋势已十分明显,预示着我们亟需探索新的路径。更重要的是,诸如新定理、新技术或重大科学发现等真正有价值的突破性见解,往往超出了现有的人类认知边界,自然也无法从已知的人类数据中获得。 经验时代 要取得显著的进一步进展,需要一个新的数据来源。这种数据必须以一种随着智能体变强而持续改进的方式生成;任何静态的合成数据生成程序都会很快被超越。这可以通过允许智能体从自身经验中持续学习来实现,即由智能体与其环境互动生成的数据。人工智能正处于一个新时期的临界点,在这个时期,经验将成为改进的主要媒介,并最终使当今系统中使用的人类数据规模相形见绌。 这种转变可能已经开始,即使是对于体现以人类为中心的人工智能的大语言模型也是如此。一个例子是数学能力。AlphaProof [20]最近成为第一个在国际数学奥林匹克竞赛中获得奖牌的程序,超越了以人类为中心的方法[27, 19]的表现。最初接触到人类数学家多年来创建的约十万个形式化证明,AlphaProof的强化学习(RL)算法¹随后通过与形式化证明系统的持续互动生成了一亿多个证明。这种对交互式经验的关注使AlphaProof能够探索超出现有形式化证明范围的数学可能性,从而发现解决新颖且具有挑战性问题的解决方案。非形式化数学也通过用自生成数据替代专家生成数据取得了成功;例如,DeepSeek的最新工作"强调了强化学习的力量和美丽:我们不是明确地教导模型如何解决问题,而是简单地提供正确的激励,它自主地发展出先进的问题解决策略。"[10] 我们的论点是,一旦经验学习的全部潜力被利用,将会出现令人难以置信的新能力。这个经验时代可能的特点是智能体和环境不仅从大量经验数据中学习,还将在几个方面突破以人类为中心的人工智能系统的局限性: 智能体将生活在经验流中,而不是短暂的互动片段中。 它们的行动和观察将深深植根于环境中,而不仅仅通过人类对话进行互动。 它们的奖励将植根于环境体验中,而不是来自人类的预先判断。 它们将计划和/或推理经验,而不仅仅是用人类术语进行推理。 我们相信,今天的技术,配合适当选择的算法,已经提供了足够强大的基础来实现这些突破。此外,人工智能社区对这一议程的追求将刺激这些方向的新创新,使人工智能迅速发展为真正超越人类的智能体。 流 一个基于经验的智能体可以在一生中持续学习。在人类数据时代,基于语言的人工智能主要关注短互动情节:例如,用户提出问题,智能体(可能经过几个思考步骤或工具使用行动后)做出响应。通常,很少或没有信息从一个情节传递到下一个情节,阻碍了随着时间推移的适应能力。此外,智能体仅针对当前情节内的结果,比如直接回答用户的问题。相比之下,人类(和其他动物)存在于一个持续多年的行动和观察的持续流中。信息在整个流中传递,他们的行为从过去的经验中适应以自我纠正和改进。此外,目标可能是根据延伸到流的远期未来的行动和观察来指定的。例如,人类可能选择行动以实现长期目标,如改善健康、学习语言或实现科学突破。 强大的智能体应该有自己的经验流,像人类一样,在长时间尺度上发展。这将允许智能体采取行动实现未来目标,并随时间不断适应新的行为模式。例如,一个连接到用户可穿戴设备的健康和健身智能体可以在很多个月内监控睡眠模式、活动水平和饮食习惯。然后,它可以提供个性化建议、鼓励,并根据长期趋势和用户的特定健康目标调整其指导。同样,一个个性化教育智能体可以跟踪用户在学习新语言方面的进步,识别知识差距,适应其学习风格,并在几个月甚至几年内调整其教学方法。此外,一个科学智能体可以追求雄心勃勃的目标,如发现新材料或减少二氧化碳。这样的智能体可以在较长时间内分析真实世界的观察结果,开发和运行模拟,并建议真实世界的实验或干预措施。 在每种情况下,智能体采取一系列步骤,以便在特定目标方面最大化长期成功。单个步骤可能不提供任何即时利益,甚至在短期内可能是不利的,但仍然可能在整体上有助于长期成功。这与现有的人工智能系统形成鲜明对比,后者对请求提供即时回应,无法测量或优化其行为对环境的未来影响。 行动与观察 在经验时代,AI 智能体将在现实世界中自主行动。人类数据时代的大语言模型主要专注于人类特有的交互方式——向用户输出文本,并从用户那里接收文本输入。这与自然智能有着显著不同,在自然智能中,动物通过运动控制和感官与环境互动。虽然动物,特别是人类,会与其他动物交流,但这种交流是通过与其他感觉运动控制相同的接口进行的,而非通过某种特殊渠道。 长期以来,研究者已经认识到大语言模型也可以在数字世界中执行操作,例如通过调用API(参见例如[43])。最初,这些能力主要来自人类使用工具的示例,而非智能体自身的经验。然而,编码和工具使用能力越来越多地建立在执行反馈[17, 7, 12]的基础上,即AI 智能体实际运行代码并观察结果。最近,一波新型原型智能体已经开始以更加通用的方式与计算机交互,即使用与人类操作计算机相同的界面[3, 15, 24]。这些变化预示着从完全依赖人类特有的交流方式,向更加自主的交互模式转变,使AI 智能体能够在世界上独立行动。这些智能体将能够主动探索世界,适应变化的环境,并发现人类可能永远不会想到的策略。 这些更丰富的交互将提供自主理解和控制数字世界的手段。AI 智能体可能使用"人类友好型"的行动和观察方式,如用户界面,自然地促进与用户的沟通和协作。智能体也可能采取"机器友好型"的行动,执行代码并调用API,使其能够自主行动以实现目标。在经验时代,AI 智能体还将通过数字界面与现实世界互动。例如,一个科学智能体可以监控环境传感器,远程操作望远镜,或控制实验室中的机器人手臂,自主进行实验。 奖励 什么情况下具有体验能力的智能体可以从外部事件和信号中学习,而不仅仅是人类偏好?以人为中心的大语言模型通常基于人类预判来优化奖励:专家观察智能体的行动并决定它是否是良好行动,或在多种选择中挑选最佳的智能体行动。例如,专家可能会评判健康智能体的建议、教育助手的教学或科学家智能体建议的实验。这些奖励或偏好是由人类在不考虑其后果的情况下确定的,而非通过测量这些行动对环境的实际影响,这意味着它们并非直接建立在世界的现实基础上。以这种方式依赖人类预判通常会导致智能体性能面临无法突破的上限:智能体无法发现被人类评估者低估的更好策略。 为了发现远超现有人类知识的新想法,必须使用基于现实的奖励:源自环境本身的信号。例如,健康助手可以将用户的健康目标转化为基于多种信号组合的奖励,如他们的静息心率、睡眠时长和活动水平,而教育助手可以使用考试成绩为语言学习提供基于现实的奖励。同样,以减少全球变暖为目标的科学智能体可能使用基于二氧化碳水平的经验观察作为奖励,而以发现更强材料为目标的智能体可能基于材料模拟器的各种测量组合,如抗拉强度或杨氏模量。 基于现实的奖励可能来自作为智能体环境一部分的人类。例如,人类用户可以报告他们是否觉得蛋糕美味、锻炼后的疲劳程度、或头痛的疼痛水平,从而使助手智能体能够提供更好的食谱、改进其健身建议或改善其推荐的药物。这类奖励衡量智能体行动在其环境中的后果,最终应该能比人类专家预先判断提议的蛋糕配方、锻炼计划或治疗方案提供更好的帮助。 如果不是来自人类数据,奖励从何而来?一旦智能体通过丰富的行动和观察空间(见上文)与世界连接,将不缺乏提供奖励基础的实际信号。事实上,世界充满了各种量化指标,如成本、速率、饥饿感、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功率、访问量、产量、库存、点赞数、收入、愉悦/痛苦、经济指标、准确度、功率、距离、速度、效率或能源消耗。此外,还有无数额外的信号来自特定事件的发生,或从原始观察和行动序列中派生的特征。 原则上,可以创建各种不同的智能体,每个智能体将一个基于现实的信号作为奖励进行优化。有一种观点认为,即使是单一的这种奖励信号,如果能够高效优化,也可能足以产生广泛适用的智能。这是因为在复杂环境中实现一个简单目标通常需要掌握各种各样的技能。 然而,追求单一奖励信号表面上似乎不符合通用人工智能的要求,后者需要能够可靠地引导向用户期望的任意行为。那么,自主优化基于现实的、非人类奖励信号是否与现代人工智能系统的要求相对立?我们认为不一定如此,以下我们将勾勒一种可能满足这些需求的方法;当然,其他方法也可能存在。 这个想法是以用户引导的方式,基于现实信号灵活地调整奖励。例如,奖励函数可以由神经网络定义,该网络将智能体与用户和环境的交互作为输入,并输出标量奖励。这允许奖励以取决于用户目标的方式从环境中选择或组合信号。例如,用户可能指定一个广泛的目标,如"提高我的健康水平",而奖励函数可能返回用户心率、睡眠时长和步数的函数。或者用户可能指定"帮助我学习西班牙语"的目标,奖励函数可以返回用户的西班牙语考试成绩。 此外,用户可以在学习过程中提供反馈,例如他们的满意度,这可用于微调奖励函数。随后,奖励函数可以随着时间调整,以改进其选择或组合信号的方式,并识别和纠正任何不一致。这也可以理解为双层优化过程,将用户反馈作为顶层目标进行优化,并在低层优化来自环境的基于现实的信号。通过这种方式,少量的人类数据可能促进大量的自主学习。 规划与推理 经验时代会改变AI 智能体规划和推理的方式吗?近期,利用能够推理或通过语言"思考"的大语言模型取得了显著进展,这些模型在输出回应前会遵循思维链(chain of thought)[16]。从概念上讲,大语言模型可以作为通用计算机 [30]:它们可以将 token 附加到自己的上下文中,使其能够在输出最终结果前执行任意算法。 在人类数据时代,这些推理方法被明确设计用来模仿人类思维过程。例如,大语言模型被引导生成类人思维链 [16],模仿人类思考的轨迹 [42],或者强化与人类示例相匹配的思考步骤 [18]。推理过程可能会经过微调,以生成与人类专家确定的正确答案相匹配的思考轨迹 [44]。 ...

April 19, 2025 · 小茄墩

字节seed:ReTool:LLM中策略性工具使用的强化学习

摘要 虽然通过强化学习(RL)训练的推理模型(如 DeepSeek R1)在文本推理方面表现出色,但它们在需要结构化问题解决的场景中面临困难,例如几何推理、简洁计算或复杂方程求解——这些恰恰是计算工具(如代码解释器 CI)展现出明显优势的领域。为了弥合这一差距,我们提出了 ReTool,它通过工具集成学习增强长篇推理能力,包括两个关键特性:(1) 在自然语言推理过程中动态穿插实时代码执行,以及 (2) 一种自动化的强化学习范式,允许策略在执行过程中进行多轮实时代码执行,并基于结果反馈教导模型学习何时以及如何调用工具。 ReTool 采用系统化的训练框架,首先进行合成冷启动数据生成,产生代码增强的长篇推理轨迹,用于微调基础模型。随后的强化学习训练利用任务结果作为奖励信号,迭代完善模型的工具使用策略,使其能够自主发现最佳工具调用模式,无需人类先验知识。 在具有挑战性的 MATH 奥赛基准 AIME 上的实验证明了 ReTool 的优越性:我们的 32B 模型在 400 个训练步骤中达到了 67% 的准确率,在效率和性能上大幅超越了基于纯文本的强化学习基线(40% 准确率,1080 步骤)。值得注意的是,ReTool-32B 在扩展设置中获得了 72.5% 的准确率,比 OpenAI 的 o1-preview 高出 27.9%。进一步分析揭示了诸如代码自我修正等涌现行为,标志着模型经历了"顿悟时刻",自主掌握了自适应工具使用能力。这些发现凸显了结果驱动的工具集成在推进复杂数学推理方面的巨大潜力,并为混合神经-符号系统提供了新的见解。 引言 在这项工作中,我们采纳强化学习范式,并引入 ReTool,一个工具(Tool)增强的强(Reinforcement)化学习框架,其明确设计旨在引导大语言模型在推理过程中利用外部计算工具达到最优策略。ReTool 包含两个关键组成部分:首先,我们开发了一个数据构建流程,以策划一个高质量的冷启动数据集,该数据集明确演示了何时以及如何调用代码解释器。这教会了模型在工具使用和执行结果分析方面的初步能力。然后,我们应用工具增强的强化学习来训练模型发现最优的工具操作推理策略,并通过基于结果的奖励调整其行为,这超越了仅靠监督学习所能捕捉到的范围。在长链推理过程中,策略模型通过灵活编写代码块并从沙盒式代码解释器获取实时执行结果来辅助后续思考,从而进行展开。 我们在具有挑战性的数学奥林匹克基准 AIME2024 和 AIME2025 上评估 ReTool。基于 Qwen2.5-32B-Instruct 构建,我们的模型仅用 400 个训练步骤就在 AIME2024 上达到了 67.0% 的准确率,显著优于基于文本的强化学习基线,后者用 1080 个训练步骤达到了 40.0% 的准确率。这些显著的提升突出表明,将工具使用显式地建模为决策过程的一部分,不仅突破了模型推理能力的极限,也提高了训练效率。此外,当在 DeepSeek-R1-Distill-Qwen-32B 上训练时,我们的模型展现了进一步的改进,超越了诸如 QwQ-32B-Preview、s1-32B 和 OpenAI o1-preview 等有竞争力的基线。这表明强化学习训练过程激发了更高效的问题解决策略。另外,我们基于 Qwen2.5-32B-Instruct 的冷启动模型在 AIME2024 上达到了 40.9% 的准确率,与基于相同骨干网络的基于文本的强化学习基线(40.0%)相当,并显著超过了未经训练的 Qwen2.5-32B-Instruct(26.7%)。这些结果表明,我们精心策划的数据集有效地捕捉了可执行推理轨迹中的工具使用模式,并且集成代码解释器的训练对推理性能有积极贡献。我们进一步通过强化学习训练对代码解释器的认知行为进行了全面分析,并确定了几个关键发现。我们的模型展示了增强的代码利用能力,使其能够使用更准确和复杂的代码片段;它还学会了适当地调用工具,自适应地选择工具,有效地组织工具调用,并通过涌现的代码自我修正能力迭代地优化推理。 ...

April 19, 2025 · 小茄墩

Sutton: 苦涩的教训

纵观70年人工智能研究史,我们获得的最重要启示是:那些充分利用计算的通用方法,终将以显著优势成为最有效的解决方案。其根本原因在于摩尔定律,或者说更广义的"单位计算成本持续指数级下降"规律。多数人工智能研究默认可用计算资源恒定(这种情况下利用人类知识成为提升性能的主要途径),但只要将时间跨度拉长到略超典型研究周期,计算能力的数量级增长就变得不可避免。研究者为获得短期可见的改进,往往诉诸领域专业知识,但从长远来看,真正起决定性作用的唯有对计算的极致利用。这两种方法本可并行不悖,但现实往往顾此失彼——任何一方的投入都会挤占另一方的资源,研究者也会形成心理层面的路径依赖。更关键的是,依赖人类知识的方法常使系统复杂化,反而不利于通用计算方法发挥最大效能。人工智能发展史上充满了对这种苦涩教训的迟来认知,审视几个典型案例颇具启发价值。 在计算机象棋领域,1997年击败世界冠军卡斯帕罗夫的方法基于海量深度搜索技术。当时,这令大多数致力于利用人类对象棋特殊结构理解的计算机象棋研究者深感挫败。当基于专用软硬件的简单搜索方法展现出碾压性优势时,这些依赖人类知识的象棋研究者难以心服口服。他们辩称"暴力"搜索或许侥幸取胜,但绝非普适性策略,况且完全不同于人类的下棋方式。这些研究者原本期待基于人类经验的方法能获胜,最终却不得不面对现实落差。 相似的技术演进在计算机围棋领域重现,只是时间上延后了约二十年。早期研究投入大量精力试图通过人类棋理或围棋特性规避搜索,但当大规模搜索被有效运用后,这些努力不仅徒劳无功,甚至成为技术桎梏。通过自对弈学习训练价值函数的方法同样至关重要(该技术也应用于其他棋类乃至象棋领域,尽管在1997年首次击败人类冠军的程序中学习机制尚未起主要作用)。自对弈学习与广义的机器学习,如同搜索技术一样,能够充分释放海量计算的潜力。搜索与学习构成了人工智能研究中驾驭大规模计算的两大支柱。在计算机围棋领域,如同象棋领域,研究者最初执着于运用人类智慧(以减少搜索需求),直到后期转向拥抱搜索与学习才实现质的飞跃。 在语音识别领域,20世纪70年代DARPA曾主办过一场早期竞赛。参赛方案中既有大量利用人类知识的特殊方法——包括词汇知识、音素知识、人类声道结构知识等,也有基于隐马尔可夫模型(HMM)的新型统计方法,后者需要更多计算资源。最终统计方法再次战胜了基于人类知识的方法。这引发了整个自然语言处理领域长达数十年的范式转变,统计与计算逐渐成为主导力量。近年来深度学习在语音识别领域的崛起,正是这一持续趋势的最新注脚。深度学习方法对人类知识的依赖更少,通过海量训练集的学习与更强大的算力,构建出性能飞跃的语音识别系统。与棋类博弈领域相似,研究者总是试图按照自己理解的思维模式构建系统——将既有认知植入系统——但当摩尔定律带来充足算力并找到有效利用方式时,这种努力往往适得其反,造成研究者时间资源的巨大浪费。 计算机视觉领域也呈现类似规律。早期方法将视觉视为边缘检测、广义柱体识别或SIFT特征提取的过程。但如今这些方法已被全面摒弃。现代深度学习神经网络仅使用卷积概念与特定不变性原则,却实现了更优越的性能。 这个教训足够深刻——作为研究领域,我们仍未完全吸取教训,仍在重复同类错误。要认清并有效抵制这种倾向,必须理解这类错误的内在吸引力。我们必须接受这个苦涩的启示:将人类自认为的思维模式植入系统终将失败。这一教训基于四项历史观察:1)AI研究者常试图将知识植入智能体;2)短期看这确实有效并能满足研究者成就感;3)长期将导致发展停滞甚至阻碍进步;4)突破性进展最终来自通过搜索与学习实现计算规模化的对立方法。这种成功常带有苦涩意味且难以被完全接纳,因为它战胜了备受青睐的人类中心主义方法。 苦涩教训的启示之一是通用方法的强大力量——那些能随着计算规模持续扩展的方法,即使可用算力已非常庞大。目前具备无限扩展潜力的两大方法是搜索与学习。 第二点启示是心智内容的极端复杂性:我们应停止寻求描述心智内容的简单范式(如空间、物体、多智能体或对称性的简单理解)。这些都属于外部世界任意且本质复杂的组成部分,不应被硬编码到系统中,因其复杂性永无止境;我们应构建能发现并捕捉这种任意复杂性的元方法。这些方法的核心在于寻找优质近似解,但搜索过程应由方法本身而非人类完成。我们需要能像人类一样自主发现的AI智能体,而非固化既有发现的系统。植入已有发现只会阻碍对发现过程的本质理解。

March 7, 2025 · 小茄墩