Andrej Karpathy最新2h30min访谈:信息密度极高!关于智能体,大模型缺陷,强化学习,AGI等等的深度思考
强化学习其实很糟糕。但它之所以大行其道,仅仅是因为我们以前拥有的一切,都比它差得多。 我本人其实非常乐观,我相信这事能成,问题终将解决。我之所以听起来悲观,只是因为当我看我的推特时间线时,上面充斥着太多在我看来毫无意义的东西。老实说,我认为其中很多噪音都只是为了筹集资金。 我们实际上不是在构建动物。我们是在构建幽灵——一种空灵的精神实体。它们完全是数字化的,它们在模仿人类。这是一种截然不同的智能。 这只是常规操作,因为我们早已身处一场持续了几十年的智能爆炸之中。一切都在逐渐被自动化,这个过程已经持续了数百年。 所以,别再写博客文章了,别再做幻灯片了,别做那些务虚的事。去构建代码,整理它,让它真正工作起来。这是唯一的出路。否则,你就永远缺少关键的知识。 当然,如果你有一个完美的人工智能导师,也许你可以走得非常远。但我认为,即便是今天所谓的天才们,也仅仅是触及了人类心智所能企及的表面而已。 更好的阅读体验:Andrej Karpathy最新访谈:信息密度极高!关于智能体,大模型缺陷,强化学习,AGI等等的深度思考 中文字幕视频版 主持人: 今天,我请到了 Andrej Karpathy。Andrej,你为什么说这将是智能体的十年(decade of agents),而不是智能体之年(year of agents)? Andrej Karpathy: 你刚才提到的智能体的十年这个说法,实际上是我对一个已有的引述的回应。我记得当时有些实验室——不确定具体是谁——在暗示今年将是智能体之年,特别是在LLM的发展方面。老实说,我当时被那句话刺激到了,因为它给我的感觉是行业里存在一些过度预测。在我看来,用十年来描述这个进程才更为准确。 我们现在确实有了一些非常早期的智能体,它们的能力令人印象深刻,我每天都在用,比如 Claude 和 Codex。但我仍然觉得,我们还有漫长的路要走。所以我的反应是,我们很可能需要和这些东西共事十年。它们会不断进步,这当然很棒。但我主要想表达的是,我对那种过于激进的时间线持保留态度。 主持人: 那你认为需要十年才能完成什么?瓶颈在哪里? Andrej Karpathy: 嗯,简单来说,就是让它真正能用。在我的设想中,一个智能体应该几乎等同于你雇来一起工作的员工或实习生。你可以问问自己:你什么时候会宁愿让一个像 Claude 或 Codex 这样的智能体来做你手下员工正在做的工作?显而易见,现在它们还做不了。 那还需要什么才能让它们做到?你今天为什么不用它们?你不用它们的根本原因,就是它们不好用,对吧?它们还不够智能,也不够多模态。它们虽然可以使用电脑,但你之前提到的很多任务它们都无法完成。它们没有持续学习能力——你不能只是告诉它们一件事,然后期望它们能记住。它们在认知上存在缺陷。总而言之,就是不好用。我只是直觉地认为,要解决所有这些问题,大约需要十年时间。 主持人: 这很有意思。作为一个专业的播客主持人和一个从远处观察 AI 的人,对我来说,识别出哦,这里缺少了什么是比较容易的,比如缺少持续学习能力,或者缺少多模态能力。但我真的不知道该如何预测解决这些问题的时间线。比如,如果有人问我,实现持续学习需要多长时间?我没有任何先验知识来判断这究竟是一个五年、十年还是五十年的项目。所以,为什么是十年?为什么不是一年或者三年? Andrej Karpathy: 我猜这主要凭我自己的直觉,以及基于我在这个领域的经验所做的推断,对吧?我从事 AI 行业大概有…快二十年了?也许没那么长,大概15年左右。你之前请来的 Richard Sutton,他在这个领域的时间当然比我长得多。但我确实有大约15年的经验,我见证过人们做出各种预测,也看到了它们最终的结果。我既在学术界待过,也在产业界工作过。所以,我猜我从这些经历中形成了一种普遍的直觉。我的感觉是:这些问题是可以解决的,也是可以克服的。但它们仍然非常困难。如果让我取个平均值,对我来说,感觉就像需要十年。大概就是这样。 主持人: 这真的很有趣。我不仅想了解历史,更想知道在那些不同的突破性时刻,身处现场的人们感觉即将发生什么。在哪些方面,他们的感觉被证明是过于悲观或过于乐观的?也许我们可以一个一个地来回顾一下? Andrej Karpathy: 这确实是个大问题,因为你谈论的是15年间发生的所有事。我的意思是,AI 这个领域实际上非常奇妙,因为它经历了很多次我称之为地震级的转变——突然之间,整个领域看起来就完全不一样了。我猜我可能亲身经历过两三次这样的转变,而且我仍然认为未来还会有更多,因为它们似乎以一种令人惊讶的规律性在出现。 我职业生涯的开端,或者说我刚开始对深度学习产生兴趣时,很巧,我当时在多伦多大学,就在 Jeff Hinton 旁边。Hinton 教授,当然,就像是 AI 领域的教父级人物。他当时就在训练各种神经网络,我觉得这太不可思议了,也太有趣了。 但需要强调的是,这在当时远非 AI 领域的主流。它最初只是一个旁支学科。我想,第一次戏剧性的地震,就是伴随着 AlexNet 的出现而发生的。AlexNet 重新定位了所有人,每个人都开始转向训练神经网络。但那时候,研究仍然是高度针对特定任务的。比如,我训练一个图像分类器,或者一个神经机器翻译器,彼此独立。 在那之后,人们开始非常缓慢地对智能体产生兴趣。大家开始思考:好吧,我们可能在视觉皮层旁边打了个勾,但大脑的其他部分呢?我们如何才能构建一个真正的、完整的智能体,一个能够真正在世界中互动的实体? 我会说,2013年左右的 Atari 深度强化学习浪潮,就是早期智能体探索的一部分。它试图让智能体不仅能感知世界,还能采取行动、互动并从环境中获得奖励。当时的环境就是雅达利游戏,对吧? ...