Andrej Karpathy谈到强化学习之父Richard Sutton参与的一期播客,内容实在发人深省,甚至有些颠覆认知。

Sutton写过一篇名为《苦涩的教训》(The Bitter Lesson) 的经典文章,这篇文章在当今大语言模型(LLM)的圈子里,几乎被奉为金科玉律。研究者们在日常讨论中,常常会衡量一种方法或理念是否足够遵循“苦涩教训”——即该方法,它能不能简单粗暴地随着算力的增加而持续变强?

这背后的潜台词是:大语言模型,就是“苦涩的教训”最完美的代言人。你看那漂亮的scaling laws曲线,只要给够计算资源,模型性能就能一路攀升,简单又强大。

有趣的是,《苦涩的教训》的作者Sutton本人,却对LLM这个“模范生”的资格提出了质疑。

Sutton指出,LLM的训练数据,本质上全部来自人类,不仅是人类创造的,总量也终将有尽头。当数据被“喂”完时怎么办?模型又该如何摆脱数据中根深蒂固的人类偏见?

于是,那些将“苦涩教训”奉为圭臬的 LLM 研究者们,就这样被原则的提出者本人泼了一盆冷水

首发于:Andrej Karpathy谈:我们真的读懂了“苦涩的教训”吗?

Sutton的理想:造“松鼠”,而非“幽灵”

播客里主持人和Sutton的对话,颇有些“鸡同鸭讲”。因为Sutton脑海中的智能,与今天LLM的构建逻辑,几乎背道而驰。

Sutton自称“古典主义者”,他推崇的是图灵最初的设想——建造一台“孩童机器” (child machine)。这种机器不需要吞下半个互联网进行预训练,而是像个真正的孩子一样,通过与真实世界的互动,从自己的亲身经历中学习。

在Sutton的理想国里,不存在模仿海量内容的“预训练”阶段,更没有所谓的“监督式微调”。他指出,监督微调这种手把手教的机制在动物界根本不存在(确实如此:动物或许会观察模仿,但绝不会被同类“远程操控”着完成每一个动作)。更重要的是,有人认为预训练只是给模型灌输一些“先验知识”,好让它在后续的强化学习中能有个不错的起点。但在Sutton看来,这条路从一开始就被人类的偏见“污染”了,已经走歪了。

这就像当年的AlphaZero(从零开始,不学人类棋谱)最终战胜了AlphaGo(从人类棋谱起步)一样。

在Sutton的世界观里,智能的唯一正途,就是通过强化学习与世界互动。 驱动这种互动的,一部分是环境的奖励,但更重要的,是源于“乐趣”、“好奇心”这类内在动机。而且,智能体应该时时刻刻都在学习,而不是“一次训练,永久部署”。

Sutton更关心人类与动物王国的共通之处。他有句名言:“如果我们能真正理解一只松鼠,人工智能的难题就差不多解决了。

Karpathy思考:预训练,是这个时代简陋版的“进化”

Sutton是一位极具启发性的学者。人工智能领域依然保留着思想的多样性(或称“思想的熵”),而非所有人都一窝蜂地涌向局部最优解。人工智能的发展史经历了太多次主流范式的剧烈更迭,我们不能丢掉这种开放性。

同时,Karpathy认为他对于 LLM 不符合“苦涩的教训”原则的批评不无道理。当今的前沿 LLM 是高度复杂的产物,其每一个环节都深深烙上了人类的印记:它的基础(预训练数据)是人类的文本,它的微调数据由人类筛选和标注,它的强化学习环境也由人类工程师精心调配。

我们确实没能拿出一个纯粹的、只要“开机运行”,就能在真实世界中,从经验中自主学习的算法。

但问题是,这样的算法真的存在吗?

人们总爱举两个例子。第一个是AlphaZero。但围棋终究是个规则明确的封闭游戏,本质上只是一个更复杂的“井字棋”,很难将它的成功直接复制到包罗万象的现实世界。

第二个例子就是松鼠这样的动物。对此我同样持保留态度。动物的大脑在出生时,远非一张白纸。我们眼中的许多“学习”,或许只是生物性的“成熟”。更关键的是,动物的学习是在一个极其强大的先天基础上进行的“微调”。

想想看,一头新生的小斑马,几十分钟内就能在危机四伏的草原上奔跑,并紧紧跟住母亲。 这是一项何其复杂的感觉-运动协调任务!你相信这是它从零开始,在一块白板上凭空学会的吗?绝无可能。动物大脑那数十亿神经元的初始状态,早已被写在DNA里,那是生命通过亿万年“进化”这个残酷的外循环,优化出来的结果。如果小斑马出生时像个未经训练的模型一样只会随机抽搐,它一分钟也活不下去。

同理,今天我们拥有了含数十亿参数的神经网络,要初始化这些参数,同样需要极其丰富、高信息密度的信号。我们不可能在计算机里重演一遍生物进化史,但我们幸运地拥有了海量的互联网文本。

这种基于监督学习的预训练,在动物世界里闻所未闻。但它却是我们目前能为这数十亿参数找到足够多约束的唯一可行方式。

预训练,就是我们这个时代简陋版的“进化”。 它是我们解决模型“冷启动”问题的笨办法,然后再结合强化学习等更“正确”的范式进行微调。

召唤“幽灵”,而非创造“动物”

尽管如此,我依然坚信应该从动物身上汲取灵感。动物智能中蕴含着许多强大的算法思想,是当前LLM所缺失的。

但我们也要坦诚,今天前沿的LLM研究,其目标并非创造“动物”般的智能,而是在“召唤幽灵”。

你可以将这种“幽灵”视为智能空间中一种截然不同的存在。它们被人类的知识所浸染,被人类的工程技术所塑造,像是人类所有知识的不完美复制品,是对人类文明的一次大规模统计学“蒸馏”。

它们并非“苦涩的教训”的完美化身,但与此前的人工智能相比,它们在“实践”层面已经无比接近那个理想。或许,随着时间推移,我们可以将这些“幽灵”朝“动物”的方向不断引导,这并非两条不可逾越的道路,只是起点不同。

但同样很有可能,它们会与动物智能的路径渐行渐远,最终成为一种永久性的、非动物形态的智能——虽然怪异,但却对人类极其有用,甚至足以改变世界。

或许,“幽灵”之于“动物”,正如“飞机”之于“鸟类”。

Sutton的这期播客,是为所有LLM研究者敲响的一记警钟。它提醒我们,不要在利用现有成果的道路上冲得太猛,而忘记了抬头看路。或许我们还未领会“苦涩的教训”的全部精髓,在现有模式之外,还有更强大的范式等待探索,而不是一味地埋头于“刷榜”。

动物世界就是灵感的重要来源——内在动机、乐趣、好奇心、多智能体博弈……这些都值得我们发挥想象力去探索。