Andrej Karpathy谈:我们真的读懂了“苦涩的教训”吗?

Andrej Karpathy谈到强化学习之父Richard Sutton参与的一期播客,内容实在发人深省,甚至有些颠覆认知。 Sutton写过一篇名为《苦涩的教训》(The Bitter Lesson) 的经典文章,这篇文章在当今大语言模型(LLM)的圈子里,几乎被奉为金科玉律。研究者们在日常讨论中,常常会衡量一种方法或理念是否足够遵循“苦涩教训”——即该方法,它能不能简单粗暴地随着算力的增加而持续变强? 这背后的潜台词是:大语言模型,就是“苦涩的教训”最完美的代言人。你看那漂亮的scaling laws曲线,只要给够计算资源,模型性能就能一路攀升,简单又强大。 有趣的是,《苦涩的教训》的作者Sutton本人,却对LLM这个“模范生”的资格提出了质疑。 Sutton指出,LLM的训练数据,本质上全部来自人类,不仅是人类创造的,总量也终将有尽头。当数据被“喂”完时怎么办?模型又该如何摆脱数据中根深蒂固的人类偏见? 于是,那些将“苦涩教训”奉为圭臬的 LLM 研究者们,就这样被原则的提出者本人泼了一盆冷水 首发于:Andrej Karpathy谈:我们真的读懂了“苦涩的教训”吗? Sutton的理想:造“松鼠”,而非“幽灵” 播客里主持人和Sutton的对话,颇有些“鸡同鸭讲”。因为Sutton脑海中的智能,与今天LLM的构建逻辑,几乎背道而驰。 Sutton自称“古典主义者”,他推崇的是图灵最初的设想——建造一台“孩童机器” (child machine)。这种机器不需要吞下半个互联网进行预训练,而是像个真正的孩子一样,通过与真实世界的互动,从自己的亲身经历中学习。 在Sutton的理想国里,不存在模仿海量内容的“预训练”阶段,更没有所谓的“监督式微调”。他指出,监督微调这种手把手教的机制在动物界根本不存在(确实如此:动物或许会观察模仿,但绝不会被同类“远程操控”着完成每一个动作)。更重要的是,有人认为预训练只是给模型灌输一些“先验知识”,好让它在后续的强化学习中能有个不错的起点。但在Sutton看来,这条路从一开始就被人类的偏见“污染”了,已经走歪了。 这就像当年的AlphaZero(从零开始,不学人类棋谱)最终战胜了AlphaGo(从人类棋谱起步)一样。 在Sutton的世界观里,智能的唯一正途,就是通过强化学习与世界互动。 驱动这种互动的,一部分是环境的奖励,但更重要的,是源于“乐趣”、“好奇心”这类内在动机。而且,智能体应该时时刻刻都在学习,而不是“一次训练,永久部署”。 Sutton更关心人类与动物王国的共通之处。他有句名言:“如果我们能真正理解一只松鼠,人工智能的难题就差不多解决了。” Karpathy思考:预训练,是这个时代简陋版的“进化” Sutton是一位极具启发性的学者。人工智能领域依然保留着思想的多样性(或称“思想的熵”),而非所有人都一窝蜂地涌向局部最优解。人工智能的发展史经历了太多次主流范式的剧烈更迭,我们不能丢掉这种开放性。 同时,Karpathy认为他对于 LLM 不符合“苦涩的教训”原则的批评不无道理。当今的前沿 LLM 是高度复杂的产物,其每一个环节都深深烙上了人类的印记:它的基础(预训练数据)是人类的文本,它的微调数据由人类筛选和标注,它的强化学习环境也由人类工程师精心调配。 我们确实没能拿出一个纯粹的、只要“开机运行”,就能在真实世界中,从经验中自主学习的算法。 但问题是,这样的算法真的存在吗? 人们总爱举两个例子。第一个是AlphaZero。但围棋终究是个规则明确的封闭游戏,本质上只是一个更复杂的“井字棋”,很难将它的成功直接复制到包罗万象的现实世界。 第二个例子就是松鼠这样的动物。对此我同样持保留态度。动物的大脑在出生时,远非一张白纸。我们眼中的许多“学习”,或许只是生物性的“成熟”。更关键的是,动物的学习是在一个极其强大的先天基础上进行的“微调”。 想想看,一头新生的小斑马,几十分钟内就能在危机四伏的草原上奔跑,并紧紧跟住母亲。 这是一项何其复杂的感觉-运动协调任务!你相信这是它从零开始,在一块白板上凭空学会的吗?绝无可能。动物大脑那数十亿神经元的初始状态,早已被写在DNA里,那是生命通过亿万年“进化”这个残酷的外循环,优化出来的结果。如果小斑马出生时像个未经训练的模型一样只会随机抽搐,它一分钟也活不下去。 同理,今天我们拥有了含数十亿参数的神经网络,要初始化这些参数,同样需要极其丰富、高信息密度的信号。我们不可能在计算机里重演一遍生物进化史,但我们幸运地拥有了海量的互联网文本。 这种基于监督学习的预训练,在动物世界里闻所未闻。但它却是我们目前能为这数十亿参数找到足够多约束的唯一可行方式。 预训练,就是我们这个时代简陋版的“进化”。 它是我们解决模型“冷启动”问题的笨办法,然后再结合强化学习等更“正确”的范式进行微调。 召唤“幽灵”,而非创造“动物” 尽管如此,我依然坚信应该从动物身上汲取灵感。动物智能中蕴含着许多强大的算法思想,是当前LLM所缺失的。 但我们也要坦诚,今天前沿的LLM研究,其目标并非创造“动物”般的智能,而是在“召唤幽灵”。 你可以将这种“幽灵”视为智能空间中一种截然不同的存在。它们被人类的知识所浸染,被人类的工程技术所塑造,像是人类所有知识的不完美复制品,是对人类文明的一次大规模统计学“蒸馏”。 它们并非“苦涩的教训”的完美化身,但与此前的人工智能相比,它们在“实践”层面已经无比接近那个理想。或许,随着时间推移,我们可以将这些“幽灵”朝“动物”的方向不断引导,这并非两条不可逾越的道路,只是起点不同。 但同样很有可能,它们会与动物智能的路径渐行渐远,最终成为一种永久性的、非动物形态的智能——虽然怪异,但却对人类极其有用,甚至足以改变世界。 或许,“幽灵”之于“动物”,正如“飞机”之于“鸟类”。 Sutton的这期播客,是为所有LLM研究者敲响的一记警钟。它提醒我们,不要在利用现有成果的道路上冲得太猛,而忘记了抬头看路。或许我们还未领会“苦涩的教训”的全部精髓,在现有模式之外,还有更强大的范式等待探索,而不是一味地埋头于“刷榜”。 动物世界就是灵感的重要来源——内在动机、乐趣、好奇心、多智能体博弈……这些都值得我们发挥想象力去探索。

October 9, 2025 · 小茄墩

强化学习之父Sutton最新访谈:大模型的路线走错了?

在人工智能的探索之路上,大语言模型是否已走入绝境? 强化学习之父、2024年图灵奖得主 Richard Sutton 的答案是肯定的。他驳斥了大语言模型(LLM)能够真正学习或拥有世界模型的假设,并提出,真正的智能并非模仿人类知识,而是由在现实世界中行动的目标所驱动,通过直接经验即时学习。 核心观点 强化学习(RL)旨在通过直接经验理解世界,而大语言模型(LLM)则模仿人类的言谈。前者旨在探寻如何行动,后者则预测人们会说什么。 LLM 本身并不具备世界模型,它们只是在模仿那些拥有世界模型的实体——人类。一个真正的世界模型应当能够预测世界将如何变化,而不仅仅是预测一个人接下来可能会说什么。 智能的本质在于实现能够改变外部世界的目标。LLM 以“预测下一token”为目标,但这是一种被动的过程,因为它无法对世界产生影响,因此不能算作真正的智能目标。 人工智能历史的“惨痛教训”(The Bitter Lesson)在于:依赖于原始算力和经验的通用方法,最终将超越那些依赖于嵌入人类知识的方法。 从人类知识的框架出发,再试图叠加经验学习来构建人工智能的路径,在历史上屡屡失败。反而是那些从零开始、可扩展、从原始经验中学习的系统,最终脱颖而出。 儿童并非天生的模仿者,他们是积极的实验者。他们通过主动尝试——挥舞手臂、发出声音——并观察后果来学习,而非被动地接受指令。 作为众多人工智能系统基础的监督学习,并非一种自然过程。松鼠从不上学,它们通过试错和预测来认知世界。 想要理解人类智能,更好的起点是理解动物智能。我们诸如语言之类的独特能力,不过是建立在与动物共通的基础之上“一层薄薄的华彩”。 数字智能相较于生物智能,拥有一项关键优势:复制知识的能力。一个人工智能体的全部学习成果,都可以被完整复制,作为新智能体的起点。 长期目标是通过一个“价值函数”,经由短期反馈来学习的。正如在棋局中,你走出一步能提升胜率预测的棋,这种“胜率提升”的信念本身就构成了一种即时奖励,从而强化了这一步棋。 世界过于庞大复杂,不可能预先将所有知识都灌输给一个智能体。真正的智能需要持续学习,将新信息融入其核心参数,而非仅仅暂存于一个临时的“上下文窗口”中。 当前的人工智能算法在设计上并未内在地倾向于良好的泛化能力。当一个模型展现出色的泛化时,往往是因为人类精心设计了其数据和表示方式,从而引导它走向正确的解决方案。 未来高级人工智能将面临一种新形式的网络安全挑战:知识整合的腐化风险。即便是来自可信来源的新知识,也可能像病毒一样扭曲人工智能的核心目标。 与其试图掌控人工智能的命运,我们更应像抚养孩子一样对待它们。我们无法控制其一生,但可以努力为其注入良好、稳固的价值观。 人工智能的历史,可以看作是“弱方法”(如搜索、学习等通用原则)对“强方法”(预先填充了特定人类知识的系统)的胜利史。简单且可扩展的原则,最终总是胜出。 大语言模型所缺失的“基准真相” Richard Sutton 明确区分了强化学习(RL)与大语言模型(LLM)在人工智能领域的不同定位。他视 RL 为人工智能的基础,其核心是通过直接经验来理解世界。相比之下,他认为 LLM 的主要设计目的是模仿人类的言行,而非自主地决策行动。 “我认为强化学习是人工智能的根基。什么是智能?智能的核心问题是理解你所在的世界。强化学习正致力于此,而大语言模型则是在模仿人类的行为和言论,它们并非在探寻该做什么。” 尽管一种普遍的看法是,LLM 必须拥有强大的世界模型才能处理海量文本数据,但 Richard 对此并不认同。他认为,LLM 只是在模仿拥有世界模型的实体——人类,其自身并不真正具备世界模型。一个真正的世界模型,应该能预测世界将如何演变,而不仅仅是预测一个人接下来会说什么。Richard 援引计算机科学先驱 Alan Turing 的观点,强调人工智能的目标应是创造一台能从经验中学习的机器,而他将“经验”定义为“行动并观察其后果”。 那种认为 LLM 能为未来学习提供良好“先验知识”的观点也受到了挑战。Richard 指出,一个“先验”若要有意义,必须存在一个可供参照的“基准真相”(ground truth)。但在 LLM 的框架里,这种基准真相是不存在的,因为它没有明确的目标,也没有所谓“正确”行动的概念。没有目标,也就无法判断一个行为是否正确,从而无法获得有效的反馈。 “如果你没有基准真相,就不可能拥有先验知识。因为先验知识本应是关于真相的线索或初步判断,但在(LLM 的世界里)真相并不存在,没有什么是绝对正确的言论。” 然而,强化学习却拥有一个明确的基准真相:奖励(reward)。正确的行动就是能带来奖励的行动,这为学习和评估知识提供了坚实的基础。LLM 的“下一token预测”任务,本质上是在选择自己的下一个行动(即说什么),而不是预测世界对这一行动的反应。正因如此,它无法被世界的真实反应所“触动”或“惊讶”,也无法基于这些反馈来调整自身的认知。 为何“预测下一token”并非一个实质性目标 在 Richard Sutton 看来,拥有目标是智能的精髓所在。他引用人工智能先驱 John McCarthy 的定义:智能是“实现目标的能力中的计算部分”。一个没有目标的系统,称不上智能,充其量只是一个行为系统。 尽管 LLM 在技术上确实有一个目标——预测下一token,但 Sutton 认为这并非实质性目标。一个真正的目标必须涉及改变外部世界。预测token是一个被动接收的过程,模型本身无法影响它将要接收的token。因此,在智能的框架下,这算不上一个有意义的目标。 “预测下一token,这算不上一个目标,因为它无法改变世界。token源源不断地涌来,即便你预测了它们,也无法对它们施加任何影响……这不是一个实质性的目标。你不能因为一个系统只是坐在那里,为自己预测的准确性而沾沾自喜,就说它拥有一个目标。” ...

September 28, 2025 · 小茄墩