Andrej Karpathy最新2h30min访谈:信息密度极高!关于智能体,大模型缺陷,强化学习,AGI等等的深度思考

强化学习其实很糟糕。但它之所以大行其道,仅仅是因为我们以前拥有的一切,都比它差得多。 我本人其实非常乐观,我相信这事能成,问题终将解决。我之所以听起来悲观,只是因为当我看我的推特时间线时,上面充斥着太多在我看来毫无意义的东西。老实说,我认为其中很多噪音都只是为了筹集资金。 我们实际上不是在构建动物。我们是在构建幽灵——一种空灵的精神实体。它们完全是数字化的,它们在模仿人类。这是一种截然不同的智能。 这只是常规操作,因为我们早已身处一场持续了几十年的智能爆炸之中。一切都在逐渐被自动化,这个过程已经持续了数百年。 所以,别再写博客文章了,别再做幻灯片了,别做那些务虚的事。去构建代码,整理它,让它真正工作起来。这是唯一的出路。否则,你就永远缺少关键的知识。 当然,如果你有一个完美的人工智能导师,也许你可以走得非常远。但我认为,即便是今天所谓的天才们,也仅仅是触及了人类心智所能企及的表面而已。 更好的阅读体验:Andrej Karpathy最新访谈:信息密度极高!关于智能体,大模型缺陷,强化学习,AGI等等的深度思考 中文字幕视频版 主持人: 今天,我请到了 Andrej Karpathy。Andrej,你为什么说这将是智能体的十年(decade of agents),而不是智能体之年(year of agents)? Andrej Karpathy: 你刚才提到的智能体的十年这个说法,实际上是我对一个已有的引述的回应。我记得当时有些实验室——不确定具体是谁——在暗示今年将是智能体之年,特别是在LLM的发展方面。老实说,我当时被那句话刺激到了,因为它给我的感觉是行业里存在一些过度预测。在我看来,用十年来描述这个进程才更为准确。 我们现在确实有了一些非常早期的智能体,它们的能力令人印象深刻,我每天都在用,比如 Claude 和 Codex。但我仍然觉得,我们还有漫长的路要走。所以我的反应是,我们很可能需要和这些东西共事十年。它们会不断进步,这当然很棒。但我主要想表达的是,我对那种过于激进的时间线持保留态度。 主持人: 那你认为需要十年才能完成什么?瓶颈在哪里? Andrej Karpathy: 嗯,简单来说,就是让它真正能用。在我的设想中,一个智能体应该几乎等同于你雇来一起工作的员工或实习生。你可以问问自己:你什么时候会宁愿让一个像 Claude 或 Codex 这样的智能体来做你手下员工正在做的工作?显而易见,现在它们还做不了。 那还需要什么才能让它们做到?你今天为什么不用它们?你不用它们的根本原因,就是它们不好用,对吧?它们还不够智能,也不够多模态。它们虽然可以使用电脑,但你之前提到的很多任务它们都无法完成。它们没有持续学习能力——你不能只是告诉它们一件事,然后期望它们能记住。它们在认知上存在缺陷。总而言之,就是不好用。我只是直觉地认为,要解决所有这些问题,大约需要十年时间。 主持人: 这很有意思。作为一个专业的播客主持人和一个从远处观察 AI 的人,对我来说,识别出哦,这里缺少了什么是比较容易的,比如缺少持续学习能力,或者缺少多模态能力。但我真的不知道该如何预测解决这些问题的时间线。比如,如果有人问我,实现持续学习需要多长时间?我没有任何先验知识来判断这究竟是一个五年、十年还是五十年的项目。所以,为什么是十年?为什么不是一年或者三年? Andrej Karpathy: 我猜这主要凭我自己的直觉,以及基于我在这个领域的经验所做的推断,对吧?我从事 AI 行业大概有…快二十年了?也许没那么长,大概15年左右。你之前请来的 Richard Sutton,他在这个领域的时间当然比我长得多。但我确实有大约15年的经验,我见证过人们做出各种预测,也看到了它们最终的结果。我既在学术界待过,也在产业界工作过。所以,我猜我从这些经历中形成了一种普遍的直觉。我的感觉是:这些问题是可以解决的,也是可以克服的。但它们仍然非常困难。如果让我取个平均值,对我来说,感觉就像需要十年。大概就是这样。 主持人: 这真的很有趣。我不仅想了解历史,更想知道在那些不同的突破性时刻,身处现场的人们感觉即将发生什么。在哪些方面,他们的感觉被证明是过于悲观或过于乐观的?也许我们可以一个一个地来回顾一下? Andrej Karpathy: 这确实是个大问题,因为你谈论的是15年间发生的所有事。我的意思是,AI 这个领域实际上非常奇妙,因为它经历了很多次我称之为地震级的转变——突然之间,整个领域看起来就完全不一样了。我猜我可能亲身经历过两三次这样的转变,而且我仍然认为未来还会有更多,因为它们似乎以一种令人惊讶的规律性在出现。 我职业生涯的开端,或者说我刚开始对深度学习产生兴趣时,很巧,我当时在多伦多大学,就在 Jeff Hinton 旁边。Hinton 教授,当然,就像是 AI 领域的教父级人物。他当时就在训练各种神经网络,我觉得这太不可思议了,也太有趣了。 但需要强调的是,这在当时远非 AI 领域的主流。它最初只是一个旁支学科。我想,第一次戏剧性的地震,就是伴随着 AlexNet 的出现而发生的。AlexNet 重新定位了所有人,每个人都开始转向训练神经网络。但那时候,研究仍然是高度针对特定任务的。比如,我训练一个图像分类器,或者一个神经机器翻译器,彼此独立。 在那之后,人们开始非常缓慢地对智能体产生兴趣。大家开始思考:好吧,我们可能在视觉皮层旁边打了个勾,但大脑的其他部分呢?我们如何才能构建一个真正的、完整的智能体,一个能够真正在世界中互动的实体? 我会说,2013年左右的 Atari 深度强化学习浪潮,就是早期智能体探索的一部分。它试图让智能体不仅能感知世界,还能采取行动、互动并从环境中获得奖励。当时的环境就是雅达利游戏,对吧? ...

October 19, 2025 · 小茄墩

大模型界的Karpathy地震|Andrej Karpathy访谈后记

Andrej Karpathy 又重看了一遍自己的访谈,并澄清和深化一些关键观点。Karpathy引用了不少之前写的帖,在本文用【】表示。 更好的阅读体验,求求:大模型界的Karpathy地震|Andrej Karpathy访谈后记 1. AGI 时间线 关于这方面的评论似乎是早期反响中最火的。我提到这是智能体的十年,是引用了我之前的这条推文: 2025.1.24 OpenAI发布Operator,Karpathy评论 【像OpenAI的 Operator 这样的项目,对数字世界意味着什么?它就像人形机器人对物理世界一样。 它们两者都试图在一个通用设定下工作——人形机器人用的是人体,而Operator用的是显示器、键盘和鼠标。它们都通过最初为人类设计的输入/输出接口,去逐步学习执行各种通用任务。 这两种情况,都会把我们带向一个人机混合自治的世界。在这个世界里,人类成了高级主管,负责监督底层的自动化工作。这有点像司机监控着特斯拉的自动驾驶系统一样。 这种变革在数字世界会比在物理世界快得多。为什么?因为在数字世界里处理信息的成本,大概比在物理世界里制造实物要便宜1000倍。尽管如此,物理世界的市场规模和机会感觉上要大得多。 事实上,我们在OpenAI创业初期就捣鼓过这个想法(可以参考我们当年的 Universe 和 World of Bits 项目),但可惜顺序搞错了——我们得先等到大语言模型出现才行。 即使是现在,我也不敢100%肯定时机已经成熟。你看,多模态能力(也就是处理图像、视频、音频)在过去一两年才勉强跟大语言模型整合到一起,而且很多时候还只是作为适配器硬栓上去的。更糟糕的是,我们还没真正涉足过超长任务周期的领域。举个例子,视频包含的信息量是极其庞大的。我可不确定我们是否能指望把这些信息一股脑儿全塞进上下文窗口(这是目前的主流范式),然后它就能奇迹般地搞定一切。我猜,这个地方至少还需要一两个重大突破。 我在社交媒体上看到有人说 2025 年是智能体之年。我个人倒觉得,2025年到2035年,这整整十年,是智能体的十年。我感觉,要让它真正落地,我们还有铺天盖地的工作要做。 但它 应该 能成。 今天,Operator 也许有时候能帮你上 DoorDash 订个午餐,或者查查酒店什么的。而到了明天,你将能孵化出 Operator 组织,让它们为你执行你选择的长期任务(例如,运营一整家公司)。你会像个CEO,同时监控着 10 个这样的智能体员工,也许偶尔需要亲临一线去解决某个卡壳的问题。到那时,事情就会变得非常有趣了。】 简单来说,我对 AI 时间线的看法,比 你在旧金山 AI 派对上或推上听到的普遍预测要悲观 5 到 10 倍,但比起 那些日益增长的 AI 否定者和怀疑论者,我又要乐观得多。这其中的矛盾其实并不存在:在我看来,我们是同时 1) 见证了近年来大语言模型的巨大进步,并且 2) 距离我们能真正拥有一个在任何工作上都比人类更值得雇佣的实体,也还有海量的工作要做。这些工作包括:脏活累活、集成工作、连接物理世界的传感器和执行器、社会层面的工作,以及安全和安保工作,当然还有很多研究有待完成。总的来说,我认为 10 年实现 AGI 已经是一个非常激进的时间表了,只是在当今的炒作氛围下,大家才不这么觉得。 2. 动物 vs. 幽灵 这是我之前关于 Sutton 播客的读后感: 【suton读后感】 我一直很怀疑,是否存在一种单一的、简单的算法,你只要把它扔到世界上,它就能从零开始学会一切。如果真有人造出了这种东西,那我就是错的,而那也将是 AI 领域最不可思议的突破。在我看来,动物根本不是这种模式的例子——它们通过进化,被预装了大量的智能,它们后续做的学习总体上是相当微小的(例如:刚出生的斑马)。戴上我们工程师的帽子来看,我们不可能去复现整个进化过程。但通过 LLM,我们偶然发现了一种替代方法来预装海量智能——不是靠进化,而是靠在互联网上预测下一个token。这种方法催生了智能空间中一种截然不同的实体。它不同于动物,更像是幽灵或灵魂。但是,我们能够让它们随着时间推移变得更像动物,从某些方面说,这正是许多前沿工作的意义所在。 ...

October 19, 2025 · 小茄墩