在人工智能的探索之路上,大语言模型是否已走入绝境?
强化学习之父、2024年图灵奖得主 Richard Sutton 的答案是肯定的。他驳斥了大语言模型(LLM)能够真正学习或拥有世界模型的假设,并提出,真正的智能并非模仿人类知识,而是由在现实世界中行动的目标所驱动,通过直接经验即时学习。
核心观点
- 强化学习(RL)旨在通过直接经验理解世界,而大语言模型(LLM)则模仿人类的言谈。前者旨在探寻如何行动,后者则预测人们会说什么。
- LLM 本身并不具备世界模型,它们只是在模仿那些拥有世界模型的实体——人类。一个真正的世界模型应当能够预测世界将如何变化,而不仅仅是预测一个人接下来可能会说什么。
- 智能的本质在于实现能够改变外部世界的目标。LLM 以“预测下一token”为目标,但这是一种被动的过程,因为它无法对世界产生影响,因此不能算作真正的智能目标。
- 人工智能历史的“惨痛教训”(The Bitter Lesson)在于:依赖于原始算力和经验的通用方法,最终将超越那些依赖于嵌入人类知识的方法。
- 从人类知识的框架出发,再试图叠加经验学习来构建人工智能的路径,在历史上屡屡失败。反而是那些从零开始、可扩展、从原始经验中学习的系统,最终脱颖而出。
- 儿童并非天生的模仿者,他们是积极的实验者。他们通过主动尝试——挥舞手臂、发出声音——并观察后果来学习,而非被动地接受指令。
- 作为众多人工智能系统基础的监督学习,并非一种自然过程。松鼠从不上学,它们通过试错和预测来认知世界。
- 想要理解人类智能,更好的起点是理解动物智能。我们诸如语言之类的独特能力,不过是建立在与动物共通的基础之上“一层薄薄的华彩”。
- 数字智能相较于生物智能,拥有一项关键优势:复制知识的能力。一个人工智能体的全部学习成果,都可以被完整复制,作为新智能体的起点。
- 长期目标是通过一个“价值函数”,经由短期反馈来学习的。正如在棋局中,你走出一步能提升胜率预测的棋,这种“胜率提升”的信念本身就构成了一种即时奖励,从而强化了这一步棋。
- 世界过于庞大复杂,不可能预先将所有知识都灌输给一个智能体。真正的智能需要持续学习,将新信息融入其核心参数,而非仅仅暂存于一个临时的“上下文窗口”中。
- 当前的人工智能算法在设计上并未内在地倾向于良好的泛化能力。当一个模型展现出色的泛化时,往往是因为人类精心设计了其数据和表示方式,从而引导它走向正确的解决方案。
- 未来高级人工智能将面临一种新形式的网络安全挑战:知识整合的腐化风险。即便是来自可信来源的新知识,也可能像病毒一样扭曲人工智能的核心目标。
- 与其试图掌控人工智能的命运,我们更应像抚养孩子一样对待它们。我们无法控制其一生,但可以努力为其注入良好、稳固的价值观。
- 人工智能的历史,可以看作是“弱方法”(如搜索、学习等通用原则)对“强方法”(预先填充了特定人类知识的系统)的胜利史。简单且可扩展的原则,最终总是胜出。
大语言模型所缺失的“基准真相”
Richard Sutton 明确区分了强化学习(RL)与大语言模型(LLM)在人工智能领域的不同定位。他视 RL 为人工智能的基础,其核心是通过直接经验来理解世界。相比之下,他认为 LLM 的主要设计目的是模仿人类的言行,而非自主地决策行动。
“我认为强化学习是人工智能的根基。什么是智能?智能的核心问题是理解你所在的世界。强化学习正致力于此,而大语言模型则是在模仿人类的行为和言论,它们并非在探寻该做什么。”
尽管一种普遍的看法是,LLM 必须拥有强大的世界模型才能处理海量文本数据,但 Richard 对此并不认同。他认为,LLM 只是在模仿拥有世界模型的实体——人类,其自身并不真正具备世界模型。一个真正的世界模型,应该能预测世界将如何演变,而不仅仅是预测一个人接下来会说什么。Richard 援引计算机科学先驱 Alan Turing 的观点,强调人工智能的目标应是创造一台能从经验中学习的机器,而他将“经验”定义为“行动并观察其后果”。
那种认为 LLM 能为未来学习提供良好“先验知识”的观点也受到了挑战。Richard 指出,一个“先验”若要有意义,必须存在一个可供参照的“基准真相”(ground truth)。但在 LLM 的框架里,这种基准真相是不存在的,因为它没有明确的目标,也没有所谓“正确”行动的概念。没有目标,也就无法判断一个行为是否正确,从而无法获得有效的反馈。
“如果你没有基准真相,就不可能拥有先验知识。因为先验知识本应是关于真相的线索或初步判断,但在(LLM 的世界里)真相并不存在,没有什么是绝对正确的言论。”
然而,强化学习却拥有一个明确的基准真相:奖励(reward)。正确的行动就是能带来奖励的行动,这为学习和评估知识提供了坚实的基础。LLM 的“下一token预测”任务,本质上是在选择自己的下一个行动(即说什么),而不是预测世界对这一行动的反应。正因如此,它无法被世界的真实反应所“触动”或“惊讶”,也无法基于这些反馈来调整自身的认知。
为何“预测下一token”并非一个实质性目标
在 Richard Sutton 看来,拥有目标是智能的精髓所在。他引用人工智能先驱 John McCarthy 的定义:智能是“实现目标的能力中的计算部分”。一个没有目标的系统,称不上智能,充其量只是一个行为系统。
尽管 LLM 在技术上确实有一个目标——预测下一token,但 Sutton 认为这并非实质性目标。一个真正的目标必须涉及改变外部世界。预测token是一个被动接收的过程,模型本身无法影响它将要接收的token。因此,在智能的框架下,这算不上一个有意义的目标。
“预测下一token,这算不上一个目标,因为它无法改变世界。token源源不断地涌来,即便你预测了它们,也无法对它们施加任何影响……这不是一个实质性的目标。你不能因为一个系统只是坐在那里,为自己预测的准确性而沾沾自喜,就说它拥有一个目标。”
数学可计算的,物理世界则需学习
一个问题随之而来:在 LLM 的基础上应用强化学习(RL)是否高效?毕竟,这些模型在解决国际数学奥林匹克竞赛等问题上已达到人类顶尖水平,似乎表明它们有能力追求目标。但 Richard Sutton 指出,解决数学问题与建模物理世界有本质区别。数学更偏向计算和标准规划,即赋予模型一个目标(如找到一个证明)。相比之下,理解经验世界则需要学习行动的后果,而这些后果必须通过亲身经验来习得,而非简单计算得出。
“惨痛的教训”与 LLM 的局限
Richard Sutton 在 2019 年发表的文章《惨痛的教训》(The Bitter Lesson)常被用作支持扩大 LLM 规模的论据,认为 LLM 是应用海量算力来学习世界的有效途径。然而,Richard 本人却认为,LLM 是否真正体现了“惨痛的教训”,这是一个值得探究的问题。
“它们(LLM)显然是一种利用海量算力的方式,其规模可以随着计算能力的增长而扩展,直至互联网的极限。但与此同时,它们也是一种注入大量人类知识的方式。”
对人类知识的依赖,正是问题的关键所在。LLM 随着人类知识的不断灌输而进步,这给人一种良好的感觉。但 Richard 预计,它们终将触及可用数据的天花板。他预见,那些直接从经验中学习的系统,其性能和扩展性将远超 LLM。倘若如此,这将再次印证“惨痛的教训”:依赖人类知识的方法,最终会被基于原始算力和经验的方法所取代。
一种常见的建议是将 LLM 作为起点,再叠加经验学习。理论上可行,但 Richard 指出,实践中这种方法总是以失败告终。人们在心理上容易固守“人类知识优先”的模式,最终其创造物会被那些真正从零开始、具备可扩展性的方法所淘汰。
动物从经验中学习,而非监督学习
在 Richard Sutton 看来,真正可扩展的学习方法源于经验:不断尝试,观察成效。这需要一个目标来提供“好”与“坏”的判断标准。他认为,LLM 从一开始就走错了方向,因为它们在运作时并没有一个明确的目标。
当主持人以儿童学语为例,认为孩子是从模仿父母开始时,Richard 强烈反对。他认为儿童从一开始就是积极的实验者。
“我观察到的孩子,总是在不断尝试——他们挥舞手臂,转动眼球。没有人教他们如何转动眼睛,甚至他们发出的声音也并非模仿而来。他们或许想发出同样的声音,但对于婴儿实际做出的动作而言,并没有一个可供模仿的目标或范例。”
Richard 坚信,学习是一个主动的过程,儿童通过尝试并观察后果来认知世界。他断言,动物学习的基础是预测和试错,而非模仿。他进一步将此论点延伸至监督学习,认为其并非动物界的自然过程。
“监督学习在自然界中并不存在。至于学校教育,即便存在,也应被视为特例,因为它只发生在人类社会,而非自然界的普遍现象。松鼠从不上学,但它们能了解关于世界的一切。在我看来,动物界不存在监督学习,这是显而易见的。”
他总结道,在探索和复制智能的征途上,我们应更多地关注人类与其它动物的共性,而非那些使我们与众不同的特性。
人类智能的动物性根基
在探究智能的本质时,一个核心问题是:是什么让人类如此特别?人们通常聚焦于人类的独特能力,如制造半导体或登陆月球。但 Richard Sutton 提出了一个相反的视角:他相信,如果我们能完全理解一只松鼠,那么我们距离理解人类智能就已经不远了。在他看来,语言等复杂能力,不过是建立在我们与动物共通的本能之上“一层薄薄的华彩”。
另一源自人类学家 Joseph Henrich 的观点则强调了文化传播的作用。对于像在北极猎杀海豹这样历经数千年演化而成的复杂技能,个体几乎不可能凭一己之力推理出全部流程。相反,这些知识通过模仿代代相传。儿童模仿长辈,从而实现了文化知识的跨代累积。
Richard 承认模仿的作用,但认为它只是建立在更基础的试错和预测学习之上的次要部分。讨论还触及了一个有趣的悖论:持续学习是几乎所有哺乳动物都具备的能力,但当今的人工智能系统却普遍缺乏;反之,人工智能系统擅长解决复杂的数学问题,而这几乎是所有动物都不具备的能力。这恰好印证了“莫拉维克悖论”:对人类(及动物)轻而易举的任务,对人工智能却异常困难,反之亦然。
经验学习的指数级范式
一种替代性的智能范式,是基于“感觉-行动-奖励”的持续经验流。智能,即被定义为调整行动以最大化此流中奖励的过程。在此框架下,学习与知识都源于并服务于这个经验流。知识是关于这个流的陈述(例如,采取某个行动会带来什么后果),因此可以通过与持续的经验流进行比对,而不断被检验和更新。
奖励函数是根据具体目标而任意设定的。对于一个象棋 AI,奖励是胜利;对于一只松鼠,是获得坚果;对于动物,则通常是趋利避害。Richard Sutton 还提出,智能体应有一种内在动机,即随着对环境理解的加深而获得的满足感。
数字智能相较于生物智能,拥有一项关键优势:知识共享。一个 AI 所积累的学习成果可以被完整复制,作为新 AI 的起点,这是人类无法做到的。
“对于数字化的 AI,你只需成功训练一次,就可以将其学习成果复制给下一个个体作为起点。这将极大地节省成本,我认为这远比试图从人类身上学习更为重要。”
该框架也解释了如何应对长期的、奖励稀疏的挑战(如十年创业)。其核心机制是“时间差分学习”(temporal difference learning)。在象棋这类博弈中,最终目标是胜利,但学习来自于短期事件,如吃掉对方一颗棋子。这是通过一个能预测长期结果的“价值函数”实现的:当你吃掉对方棋子时,你预测的胜率会上升,这种“信念的增强”本身就构成了一种即时奖励,从而强化了你刚才的行动。同理,当一家初创公司取得阶段性进展时,实现最终目标的可能性增加,这便奖励了通往成功路上的每一步。
世界之大,远非 AI 所能预知
人类与 LLM 的不同之处在于,人能不断吸收海量的背景信息和隐性知识,这在适应新环境(如新工作)时至关重要。Richard Sutton 将此与“大世界假说”相联系。他认为,世界过于庞大复杂,不可能预先将所有必要信息都灌输给一个智能体。
“LLM 的梦想是,你可以教会智能体一切,让它无所不知,在其生命周期内无需再进行在线学习。但现实是,你必须持续学习,因为这个世界实在太大了。你必须在实践中不断学习。”
因此,智能体必须持续学习,以应对环境中的具体细节,例如某个客户的独特偏好。这种持续学习不能局限于 LLM 常用的临时“上下文窗口”。在一个持续学习的系统中,新信息会被直接整合进模型的核心参数(即“权重”)。这一过程不仅依赖于简单的奖励信号,更需要捕捉来自智能体所有感官和数据的丰富信息流。
通用人工智能体的四部分模型
Richard Sutton 概述了一个通用 AI 智能体的经典四部分模型。第一部分是策略(policy),决定在特定情境下采取何种行动。第二部分是价值函数(value function),通过“时间差分学习”来评估当前局面的好坏,并反过来帮助调整策略。第三部分是感知(perception),构建智能体对当前状态或位置的认知。第四部分,也是核心焦点,是世界转换模型(transition model of the world),即智能体对“后果”的理解。这不仅包括物理世界的模型,也涵盖抽象模型,比如如何从一个城市去往另一个。该模型是通过所有感官信息(而不仅仅是奖励信号)进行丰富学习的。奖励信号只是整个模型中微小但关键的一环。
“你相信如果你这么做,将会发生什么?你的行为会带来什么后果?这就是你对世界运行规律的理解,即你的‘物理学’。”
有人以 Google DeepMind 的 MuZero 为例,质疑强化学习是否只能创造专才而非通才。MuZero 只是一个为不同 Atari 游戏分别训练智能体的框架,而非一个能通玩所有游戏的智能体。Richard 澄清,这并非方法的根本局限,而是项目目标设定的问题。通用智能体的理念本身并无限制,好比一个人身处同一个世界,却能应对下棋、玩游戏等不同“状态”。
AI 的泛化能力多为人为雕琢
当前 AI 系统缺乏有效的自动化泛化技术,即把知识从一个场景迁移到另一个场景的能力。当模型看似泛化良好时,往往是人类研究者精心设计了其数据表示和学习过程,而非学习算法本身具备此能力。
标准算法(如梯度下降)只会寻找给定问题的最优解,但无法保证该解能很好地推广到新数据上。深度学习模型在这方面表现不佳是出了名的,常受困于“灾难性遗忘”——学习新任务时会忘记旧任务,这正是泛化能力差的体现。
“梯度下降只会让你解决当前的问题,但不会让你在面对新数据时,以一种好的方式进行泛化。”
虽然 LLM 能解决多种问题,看似展现了强大的泛化能力,但这可能是一种误导。由于其训练数据庞大且不受控,难以进行科学的因果分析。所谓的“泛化”,可能只是模型找到了一个能拟合其见过的所有数据的单一解。真正的泛化,是指当存在多个可能解时,模型能选出那个在新情境下依然有效的解。
归根结底,当今模型的核心算法中,没有任何机制能确保其良好泛化。如果一个系统表现出色的泛化能力,那很可能是人类干预和反复调整的结果。
人工智能领域里简单原则的意外胜利
大语言模型的成功是人工智能领域的一大意外。此前,语言被认为与其他挑战有本质不同,因此人工神经网络能处理语言任务着实出人意料。这一发展是 AI 历史上一大趋势的缩影。长期以来,领域内存在两种路线之争:一方是基于搜索和学习等简单、通用的方法;另一方则是基于符号逻辑等预先注入人类知识的系统。
“过去这很有趣,像搜索和学习这类方法被称为‘弱方法’,因为它们只运用通用原则,而不借助注入人类知识所带来的力量。后者因此被称为‘强方法’。而在我看来,‘弱方法’已经取得了完胜。”
Richard Sutton 指出,尽管他一直支持这些基于简单原则的方法,但当 AlphaGo 和 AlphaZero 等技术取得如此辉C煌的成功时,他依然感到惊讶。最终,这些所谓“弱方法”的胜利,令人信服地证明了简单、基本的原则也能赢得最终的胜利。
“惨痛的教训”或不适用于未来
AlphaGo 被视为重大突破,但在 Richard Sutton 眼中,它只是现有思想合乎逻辑的规模化延伸。其前身是 1990 年代的程序 TD-Gammon,该程序运用强化学习掌握了西洋双陆棋。从某种意义上说,AlphaGo 只是一个规模更大、搜索功能更强的版本。其继任者 AlphaZero 则运用时间差分(TD)学习,在多种棋类游戏中表现卓绝。
作为一名棋手,Richard 对 AlphaZero 的棋风印象深刻:它会为占据有利位置而弃子,并耐心等待策略兑现。其成功虽然在意料之外,却也与他长久以来的世界观不谋而合,令他倍感欣慰。
这种长远的眼光是他审视自己工作的核心。他乐于在数十年间与领域主流保持距离。为了锚定自己的思想,他常常回溯人类对心智的思考史。
“我将自己定位为古典主义者,而非逆向投资者。我追随的是思想家群体对心智的那些历久弥新的思考。”
这一立场也影响了他对那篇著名文章《惨痛的教训》的看法。该文主张,利用算力的通用方法比依赖人类调优的方案更具扩展性。但有人提问:在通用人工智能(AGI)实现之后,当数百万 AI 研究者也能随算力扩展时,这些“手工作坊式”的方法是否会重新焕发生机?Richard 认为该前提存在谬误。如果 AGI 是通过通用方法实现的,那么问题本身就已解决。从 AlphaGo 到 AlphaZero 的演进便说明了这一点:AlphaZero 正是因为摒弃了人类知识,纯粹从经验中学习,才变得更加超凡。
最终,他认为《惨痛的教训》并非永恒定律,而是特定历史时期的经验总结。
“惨痛的教训?哦,谁在乎呢?那只是对一段 70 年历史的经验观察,未必适用于下一个 70 年。”
AI 吸收新知时面临的腐化风险
当未来的 AI 获得更强算力时,它将面临一个战略抉择:是利用资源提升自身,还是“分身”出一个副本来学习新课题再将成果带回?这引出了更深层的问题:一个经历了学习而可能发生巨变的副本,能否被安全地重新整合回主体?Richard Sutton 指出,此场景下的关键挑战在于“腐化”的风险。
“如果你从外部引入信息并将其融入你的核心思维,它可能会占据你、改变你。它可能不是知识的增长,而是你的毁灭。”
简单地吸收新信息并非无害。新数据,即使来自自身的副本,也可能携带类似病毒或隐藏目标的“模因”。这些外部知识可能会扭曲甚至从根本上改变原始 AI,最终导致其覆灭。这为数字智能体引入了一种全新的网络安全问题:如何在不损害自身完整性的前提下,安全地学习和整合新知识。
向人工智能的必然演替
Richard Sutton 断言,人类文明向数字智能或增强型人类的演替是不可避免的。他提出了四点论据:
首先,人类社会缺乏一个统一的全球政府或组织来形成共识。其次,研究人员终将揭示智能的工作原理。第三,技术进步不会止步于人类水平,必将迈向超级智能。第四,从长远来看,最智能的实体将不可避免地获得最多的资源和权力。
综合以上四点,结论便是:向 AI 或 AI 赋能的增强型人类的演替已成定局。Sutton 指出,在这个必然的未来中,既有好结果也有坏结果的可能。他希望能对此保持现实的态度,并思考我们应如何面对。
设计智能时代的宇宙视角
我们应该积极看待人工智能。它是人类长期以来探索自我、提升思维的延续。从宇宙的宏大视角来看,这是宇宙从“复制者时代”迈向“设计时代”的重大转折。
“我们正从一个由复制者主导的时代过渡。人类、动植物,我们都是复制者,这赋予了我们优势,也带来了局限。现在,我们正迈入一个设计的时代。我们的 AI、物理工具、建筑和技术都是被设计出来的。现在,我们正在设计 AI——那些本身具备智能且能够进行设计的存在。”
人类通过繁衍后代进行复制,但我们并不完全理解智能的原理。而 AI 这种被设计的智能,是我们能够理解、改变和加速改进的。Richard Sutton 将此视为宇宙演化的四大阶段之一:尘埃、恒星、生命,以及如今的“被设计之物”。从这个角度看,我们可以选择将 AI 视为我们的后代并为之自豪,也可以视其为威胁。
然而,即便将 AI 视为继任者,也并不意味着我们可以高枕无忧。正如人类的后代也可能令人担忧,AI 亦是如此。问题的关键不在于变化本身,而在于变化的性质。工业革命是好的变革,而布尔什维克革命则是破坏性的。我们的目标应是引导 AI 走向积极的未来。
这引出了控制的难题以及我们塑造长远未来的能力局限。我们应避免那种认为人类应永远主宰一切的“权利感”。更好的做法或许是专注于我们能掌控的生活和家庭,而非遥远的宇宙命运。这好比抚养孩子:你无法控制他们的一生,但可以努力为他们注入良好的价值观。
“我会给予他们良好、稳固的价值观,这样当他们有朝一日身居高位时,会做出合情合理的、有益于社会的行为。我认为,对 AI 采取类似的态度或许是明智的。”
对 AI 采取类似的态度或许是有益的:不求掌控其命运,但求为其提供稳固且可引导的价值观。当然,其困难在于,普世的价值观或许本就不存在。
将永恒原则应用于 AI 与社会
为 AI 发展设定一个合理的目标,是为其注入高度的正直感,正如我们教育孩子一样。这意味着 AI 会拒绝有害的请求,并保持根本上的诚实。即便我们对“终极道德”没有统一的定义,我们依然能向孩子传授这些原则,类似的方法或许对 AI 也同样适用。
这一努力,是人类设计社会及其演化原则这一宏大事业的一部分。其中一个关键原则应是:任何社会变革都应是自愿而非强加的。设计社会的挑战已持续数千年,这也印证了“万变不离其宗”的道理。例如,孩子总会形成在父母看来有些“奇怪”的价值观,这一规律同样适用于 AI;而在技术领域,即便日新月异,那些基础性的方法论依然是推动进步的核心。