强化学习之父Sutton最新访谈:大模型的路线走错了?
在人工智能的探索之路上,大语言模型是否已走入绝境? 强化学习之父、2024年图灵奖得主 Richard Sutton 的答案是肯定的。他驳斥了大语言模型(LLM)能够真正学习或拥有世界模型的假设,并提出,真正的智能并非模仿人类知识,而是由在现实世界中行动的目标所驱动,通过直接经验即时学习。 核心观点 强化学习(RL)旨在通过直接经验理解世界,而大语言模型(LLM)则模仿人类的言谈。前者旨在探寻如何行动,后者则预测人们会说什么。 LLM 本身并不具备世界模型,它们只是在模仿那些拥有世界模型的实体——人类。一个真正的世界模型应当能够预测世界将如何变化,而不仅仅是预测一个人接下来可能会说什么。 智能的本质在于实现能够改变外部世界的目标。LLM 以“预测下一token”为目标,但这是一种被动的过程,因为它无法对世界产生影响,因此不能算作真正的智能目标。 人工智能历史的“惨痛教训”(The Bitter Lesson)在于:依赖于原始算力和经验的通用方法,最终将超越那些依赖于嵌入人类知识的方法。 从人类知识的框架出发,再试图叠加经验学习来构建人工智能的路径,在历史上屡屡失败。反而是那些从零开始、可扩展、从原始经验中学习的系统,最终脱颖而出。 儿童并非天生的模仿者,他们是积极的实验者。他们通过主动尝试——挥舞手臂、发出声音——并观察后果来学习,而非被动地接受指令。 作为众多人工智能系统基础的监督学习,并非一种自然过程。松鼠从不上学,它们通过试错和预测来认知世界。 想要理解人类智能,更好的起点是理解动物智能。我们诸如语言之类的独特能力,不过是建立在与动物共通的基础之上“一层薄薄的华彩”。 数字智能相较于生物智能,拥有一项关键优势:复制知识的能力。一个人工智能体的全部学习成果,都可以被完整复制,作为新智能体的起点。 长期目标是通过一个“价值函数”,经由短期反馈来学习的。正如在棋局中,你走出一步能提升胜率预测的棋,这种“胜率提升”的信念本身就构成了一种即时奖励,从而强化了这一步棋。 世界过于庞大复杂,不可能预先将所有知识都灌输给一个智能体。真正的智能需要持续学习,将新信息融入其核心参数,而非仅仅暂存于一个临时的“上下文窗口”中。 当前的人工智能算法在设计上并未内在地倾向于良好的泛化能力。当一个模型展现出色的泛化时,往往是因为人类精心设计了其数据和表示方式,从而引导它走向正确的解决方案。 未来高级人工智能将面临一种新形式的网络安全挑战:知识整合的腐化风险。即便是来自可信来源的新知识,也可能像病毒一样扭曲人工智能的核心目标。 与其试图掌控人工智能的命运,我们更应像抚养孩子一样对待它们。我们无法控制其一生,但可以努力为其注入良好、稳固的价值观。 人工智能的历史,可以看作是“弱方法”(如搜索、学习等通用原则)对“强方法”(预先填充了特定人类知识的系统)的胜利史。简单且可扩展的原则,最终总是胜出。 大语言模型所缺失的“基准真相” Richard Sutton 明确区分了强化学习(RL)与大语言模型(LLM)在人工智能领域的不同定位。他视 RL 为人工智能的基础,其核心是通过直接经验来理解世界。相比之下,他认为 LLM 的主要设计目的是模仿人类的言行,而非自主地决策行动。 “我认为强化学习是人工智能的根基。什么是智能?智能的核心问题是理解你所在的世界。强化学习正致力于此,而大语言模型则是在模仿人类的行为和言论,它们并非在探寻该做什么。” 尽管一种普遍的看法是,LLM 必须拥有强大的世界模型才能处理海量文本数据,但 Richard 对此并不认同。他认为,LLM 只是在模仿拥有世界模型的实体——人类,其自身并不真正具备世界模型。一个真正的世界模型,应该能预测世界将如何演变,而不仅仅是预测一个人接下来会说什么。Richard 援引计算机科学先驱 Alan Turing 的观点,强调人工智能的目标应是创造一台能从经验中学习的机器,而他将“经验”定义为“行动并观察其后果”。 那种认为 LLM 能为未来学习提供良好“先验知识”的观点也受到了挑战。Richard 指出,一个“先验”若要有意义,必须存在一个可供参照的“基准真相”(ground truth)。但在 LLM 的框架里,这种基准真相是不存在的,因为它没有明确的目标,也没有所谓“正确”行动的概念。没有目标,也就无法判断一个行为是否正确,从而无法获得有效的反馈。 “如果你没有基准真相,就不可能拥有先验知识。因为先验知识本应是关于真相的线索或初步判断,但在(LLM 的世界里)真相并不存在,没有什么是绝对正确的言论。” 然而,强化学习却拥有一个明确的基准真相:奖励(reward)。正确的行动就是能带来奖励的行动,这为学习和评估知识提供了坚实的基础。LLM 的“下一token预测”任务,本质上是在选择自己的下一个行动(即说什么),而不是预测世界对这一行动的反应。正因如此,它无法被世界的真实反应所“触动”或“惊讶”,也无法基于这些反馈来调整自身的认知。 为何“预测下一token”并非一个实质性目标 在 Richard Sutton 看来,拥有目标是智能的精髓所在。他引用人工智能先驱 John McCarthy 的定义:智能是“实现目标的能力中的计算部分”。一个没有目标的系统,称不上智能,充其量只是一个行为系统。 尽管 LLM 在技术上确实有一个目标——预测下一token,但 Sutton 认为这并非实质性目标。一个真正的目标必须涉及改变外部世界。预测token是一个被动接收的过程,模型本身无法影响它将要接收的token。因此,在智能的框架下,这算不上一个有意义的目标。 “预测下一token,这算不上一个目标,因为它无法改变世界。token源源不断地涌来,即便你预测了它们,也无法对它们施加任何影响……这不是一个实质性的目标。你不能因为一个系统只是坐在那里,为自己预测的准确性而沾沾自喜,就说它拥有一个目标。” ...