Andrej Karpathy最新2h30min访谈:信息密度极高!关于智能体,大模型缺陷,强化学习,AGI等等的深度思考

强化学习其实很糟糕。但它之所以大行其道,仅仅是因为我们以前拥有的一切,都比它差得多。 我本人其实非常乐观,我相信这事能成,问题终将解决。我之所以听起来悲观,只是因为当我看我的推特时间线时,上面充斥着太多在我看来毫无意义的东西。老实说,我认为其中很多噪音都只是为了筹集资金。 我们实际上不是在构建动物。我们是在构建幽灵——一种空灵的精神实体。它们完全是数字化的,它们在模仿人类。这是一种截然不同的智能。 这只是常规操作,因为我们早已身处一场持续了几十年的智能爆炸之中。一切都在逐渐被自动化,这个过程已经持续了数百年。 所以,别再写博客文章了,别再做幻灯片了,别做那些务虚的事。去构建代码,整理它,让它真正工作起来。这是唯一的出路。否则,你就永远缺少关键的知识。 当然,如果你有一个完美的人工智能导师,也许你可以走得非常远。但我认为,即便是今天所谓的天才们,也仅仅是触及了人类心智所能企及的表面而已。 更好的阅读体验:Andrej Karpathy最新访谈:信息密度极高!关于智能体,大模型缺陷,强化学习,AGI等等的深度思考 中文字幕视频版 主持人: 今天,我请到了 Andrej Karpathy。Andrej,你为什么说这将是智能体的十年(decade of agents),而不是智能体之年(year of agents)? Andrej Karpathy: 你刚才提到的智能体的十年这个说法,实际上是我对一个已有的引述的回应。我记得当时有些实验室——不确定具体是谁——在暗示今年将是智能体之年,特别是在LLM的发展方面。老实说,我当时被那句话刺激到了,因为它给我的感觉是行业里存在一些过度预测。在我看来,用十年来描述这个进程才更为准确。 我们现在确实有了一些非常早期的智能体,它们的能力令人印象深刻,我每天都在用,比如 Claude 和 Codex。但我仍然觉得,我们还有漫长的路要走。所以我的反应是,我们很可能需要和这些东西共事十年。它们会不断进步,这当然很棒。但我主要想表达的是,我对那种过于激进的时间线持保留态度。 主持人: 那你认为需要十年才能完成什么?瓶颈在哪里? Andrej Karpathy: 嗯,简单来说,就是让它真正能用。在我的设想中,一个智能体应该几乎等同于你雇来一起工作的员工或实习生。你可以问问自己:你什么时候会宁愿让一个像 Claude 或 Codex 这样的智能体来做你手下员工正在做的工作?显而易见,现在它们还做不了。 那还需要什么才能让它们做到?你今天为什么不用它们?你不用它们的根本原因,就是它们不好用,对吧?它们还不够智能,也不够多模态。它们虽然可以使用电脑,但你之前提到的很多任务它们都无法完成。它们没有持续学习能力——你不能只是告诉它们一件事,然后期望它们能记住。它们在认知上存在缺陷。总而言之,就是不好用。我只是直觉地认为,要解决所有这些问题,大约需要十年时间。 主持人: 这很有意思。作为一个专业的播客主持人和一个从远处观察 AI 的人,对我来说,识别出哦,这里缺少了什么是比较容易的,比如缺少持续学习能力,或者缺少多模态能力。但我真的不知道该如何预测解决这些问题的时间线。比如,如果有人问我,实现持续学习需要多长时间?我没有任何先验知识来判断这究竟是一个五年、十年还是五十年的项目。所以,为什么是十年?为什么不是一年或者三年? Andrej Karpathy: 我猜这主要凭我自己的直觉,以及基于我在这个领域的经验所做的推断,对吧?我从事 AI 行业大概有…快二十年了?也许没那么长,大概15年左右。你之前请来的 Richard Sutton,他在这个领域的时间当然比我长得多。但我确实有大约15年的经验,我见证过人们做出各种预测,也看到了它们最终的结果。我既在学术界待过,也在产业界工作过。所以,我猜我从这些经历中形成了一种普遍的直觉。我的感觉是:这些问题是可以解决的,也是可以克服的。但它们仍然非常困难。如果让我取个平均值,对我来说,感觉就像需要十年。大概就是这样。 主持人: 这真的很有趣。我不仅想了解历史,更想知道在那些不同的突破性时刻,身处现场的人们感觉即将发生什么。在哪些方面,他们的感觉被证明是过于悲观或过于乐观的?也许我们可以一个一个地来回顾一下? Andrej Karpathy: 这确实是个大问题,因为你谈论的是15年间发生的所有事。我的意思是,AI 这个领域实际上非常奇妙,因为它经历了很多次我称之为地震级的转变——突然之间,整个领域看起来就完全不一样了。我猜我可能亲身经历过两三次这样的转变,而且我仍然认为未来还会有更多,因为它们似乎以一种令人惊讶的规律性在出现。 我职业生涯的开端,或者说我刚开始对深度学习产生兴趣时,很巧,我当时在多伦多大学,就在 Jeff Hinton 旁边。Hinton 教授,当然,就像是 AI 领域的教父级人物。他当时就在训练各种神经网络,我觉得这太不可思议了,也太有趣了。 但需要强调的是,这在当时远非 AI 领域的主流。它最初只是一个旁支学科。我想,第一次戏剧性的地震,就是伴随着 AlexNet 的出现而发生的。AlexNet 重新定位了所有人,每个人都开始转向训练神经网络。但那时候,研究仍然是高度针对特定任务的。比如,我训练一个图像分类器,或者一个神经机器翻译器,彼此独立。 在那之后,人们开始非常缓慢地对智能体产生兴趣。大家开始思考:好吧,我们可能在视觉皮层旁边打了个勾,但大脑的其他部分呢?我们如何才能构建一个真正的、完整的智能体,一个能够真正在世界中互动的实体? 我会说,2013年左右的 Atari 深度强化学习浪潮,就是早期智能体探索的一部分。它试图让智能体不仅能感知世界,还能采取行动、互动并从环境中获得奖励。当时的环境就是雅达利游戏,对吧? ...

October 19, 2025 · 小茄墩

大模型界的Karpathy地震|Andrej Karpathy访谈后记

Andrej Karpathy 又重看了一遍自己的访谈,并澄清和深化一些关键观点。Karpathy引用了不少之前写的帖,在本文用【】表示。 更好的阅读体验,求求:大模型界的Karpathy地震|Andrej Karpathy访谈后记 1. AGI 时间线 关于这方面的评论似乎是早期反响中最火的。我提到这是智能体的十年,是引用了我之前的这条推文: 2025.1.24 OpenAI发布Operator,Karpathy评论 【像OpenAI的 Operator 这样的项目,对数字世界意味着什么?它就像人形机器人对物理世界一样。 它们两者都试图在一个通用设定下工作——人形机器人用的是人体,而Operator用的是显示器、键盘和鼠标。它们都通过最初为人类设计的输入/输出接口,去逐步学习执行各种通用任务。 这两种情况,都会把我们带向一个人机混合自治的世界。在这个世界里,人类成了高级主管,负责监督底层的自动化工作。这有点像司机监控着特斯拉的自动驾驶系统一样。 这种变革在数字世界会比在物理世界快得多。为什么?因为在数字世界里处理信息的成本,大概比在物理世界里制造实物要便宜1000倍。尽管如此,物理世界的市场规模和机会感觉上要大得多。 事实上,我们在OpenAI创业初期就捣鼓过这个想法(可以参考我们当年的 Universe 和 World of Bits 项目),但可惜顺序搞错了——我们得先等到大语言模型出现才行。 即使是现在,我也不敢100%肯定时机已经成熟。你看,多模态能力(也就是处理图像、视频、音频)在过去一两年才勉强跟大语言模型整合到一起,而且很多时候还只是作为适配器硬栓上去的。更糟糕的是,我们还没真正涉足过超长任务周期的领域。举个例子,视频包含的信息量是极其庞大的。我可不确定我们是否能指望把这些信息一股脑儿全塞进上下文窗口(这是目前的主流范式),然后它就能奇迹般地搞定一切。我猜,这个地方至少还需要一两个重大突破。 我在社交媒体上看到有人说 2025 年是智能体之年。我个人倒觉得,2025年到2035年,这整整十年,是智能体的十年。我感觉,要让它真正落地,我们还有铺天盖地的工作要做。 但它 应该 能成。 今天,Operator 也许有时候能帮你上 DoorDash 订个午餐,或者查查酒店什么的。而到了明天,你将能孵化出 Operator 组织,让它们为你执行你选择的长期任务(例如,运营一整家公司)。你会像个CEO,同时监控着 10 个这样的智能体员工,也许偶尔需要亲临一线去解决某个卡壳的问题。到那时,事情就会变得非常有趣了。】 简单来说,我对 AI 时间线的看法,比 你在旧金山 AI 派对上或推上听到的普遍预测要悲观 5 到 10 倍,但比起 那些日益增长的 AI 否定者和怀疑论者,我又要乐观得多。这其中的矛盾其实并不存在:在我看来,我们是同时 1) 见证了近年来大语言模型的巨大进步,并且 2) 距离我们能真正拥有一个在任何工作上都比人类更值得雇佣的实体,也还有海量的工作要做。这些工作包括:脏活累活、集成工作、连接物理世界的传感器和执行器、社会层面的工作,以及安全和安保工作,当然还有很多研究有待完成。总的来说,我认为 10 年实现 AGI 已经是一个非常激进的时间表了,只是在当今的炒作氛围下,大家才不这么觉得。 2. 动物 vs. 幽灵 这是我之前关于 Sutton 播客的读后感: 【suton读后感】 我一直很怀疑,是否存在一种单一的、简单的算法,你只要把它扔到世界上,它就能从零开始学会一切。如果真有人造出了这种东西,那我就是错的,而那也将是 AI 领域最不可思议的突破。在我看来,动物根本不是这种模式的例子——它们通过进化,被预装了大量的智能,它们后续做的学习总体上是相当微小的(例如:刚出生的斑马)。戴上我们工程师的帽子来看,我们不可能去复现整个进化过程。但通过 LLM,我们偶然发现了一种替代方法来预装海量智能——不是靠进化,而是靠在互联网上预测下一个token。这种方法催生了智能空间中一种截然不同的实体。它不同于动物,更像是幽灵或灵魂。但是,我们能够让它们随着时间推移变得更像动物,从某些方面说,这正是许多前沿工作的意义所在。 ...

October 19, 2025 · 小茄墩

想从零开始,复刻一个你自己的 ChatGPT 吗?Andrej Karpathy 的 nanochat 项目来了!

AI 大神 Andrej Karpathy 再度带来惊喜,发布了名为 nanochat 的全新项目。他将其描述为自己写过的最放飞自我的代码库,它将作为其备受期待的 LLM 课程的一部分。 nanochat 的核心理念是 极简与一站式。它将训练一个类 ChatGPT 模型所需的全流程——从数据处理、预训练、对齐微调,到最终的推理部署与 WebUI——整合在了一个仅有 8300 行的清晰代码库中。 整个过程被设计得极其简单:你只需一台云端 GPU 服务器,运行一个脚本,最快在 4 小时 内,就能与你亲手训练出的 AI 模型在专属的网页上进行对话。 这个 AI 全家桶 包含哪些核心组件? Karpathy 为你打包了构建 ChatGPT 的完整工作流: 高效分词器 (Tokenizer): 使用 Rust 语言从零开始实现,保证高性能。 模型预训练 (Pre-training): 在经典的 FineWeb 数据集上进行,并提供 CORE 等多维度评估指标。 对齐微调 (Fine-tuning): 教授模型如何像 AI 助手一样对话、完成选择题,甚至学习使用计算器等外部工具。评测基准覆盖常识推理 (ARC)、知识问答 (MMLU)、数学 (GSM8K) 和代码生成 (HumanEval)。 强化学习 (RL): (可选) 可在 GSM8K 数学任务上,使用 GRPO 算法进行强化学习,进一步提升模型能力。 推理与部署 (Inference & Deployment): 提供一个包含 KV cache 优化的高效推理引擎,支持命令行 (CLI) 和一个精致的 ChatGPT 风格 WebUI 进行交互,并内置了用于工具调用的轻量级 Python 沙箱。 ...

October 14, 2025 · 小茄墩

Andrej Karpathy谈:我们真的读懂了“苦涩的教训”吗?

Andrej Karpathy谈到强化学习之父Richard Sutton参与的一期播客,内容实在发人深省,甚至有些颠覆认知。 Sutton写过一篇名为《苦涩的教训》(The Bitter Lesson) 的经典文章,这篇文章在当今大语言模型(LLM)的圈子里,几乎被奉为金科玉律。研究者们在日常讨论中,常常会衡量一种方法或理念是否足够遵循“苦涩教训”——即该方法,它能不能简单粗暴地随着算力的增加而持续变强? 这背后的潜台词是:大语言模型,就是“苦涩的教训”最完美的代言人。你看那漂亮的scaling laws曲线,只要给够计算资源,模型性能就能一路攀升,简单又强大。 有趣的是,《苦涩的教训》的作者Sutton本人,却对LLM这个“模范生”的资格提出了质疑。 Sutton指出,LLM的训练数据,本质上全部来自人类,不仅是人类创造的,总量也终将有尽头。当数据被“喂”完时怎么办?模型又该如何摆脱数据中根深蒂固的人类偏见? 于是,那些将“苦涩教训”奉为圭臬的 LLM 研究者们,就这样被原则的提出者本人泼了一盆冷水 首发于:Andrej Karpathy谈:我们真的读懂了“苦涩的教训”吗? Sutton的理想:造“松鼠”,而非“幽灵” 播客里主持人和Sutton的对话,颇有些“鸡同鸭讲”。因为Sutton脑海中的智能,与今天LLM的构建逻辑,几乎背道而驰。 Sutton自称“古典主义者”,他推崇的是图灵最初的设想——建造一台“孩童机器” (child machine)。这种机器不需要吞下半个互联网进行预训练,而是像个真正的孩子一样,通过与真实世界的互动,从自己的亲身经历中学习。 在Sutton的理想国里,不存在模仿海量内容的“预训练”阶段,更没有所谓的“监督式微调”。他指出,监督微调这种手把手教的机制在动物界根本不存在(确实如此:动物或许会观察模仿,但绝不会被同类“远程操控”着完成每一个动作)。更重要的是,有人认为预训练只是给模型灌输一些“先验知识”,好让它在后续的强化学习中能有个不错的起点。但在Sutton看来,这条路从一开始就被人类的偏见“污染”了,已经走歪了。 这就像当年的AlphaZero(从零开始,不学人类棋谱)最终战胜了AlphaGo(从人类棋谱起步)一样。 在Sutton的世界观里,智能的唯一正途,就是通过强化学习与世界互动。 驱动这种互动的,一部分是环境的奖励,但更重要的,是源于“乐趣”、“好奇心”这类内在动机。而且,智能体应该时时刻刻都在学习,而不是“一次训练,永久部署”。 Sutton更关心人类与动物王国的共通之处。他有句名言:“如果我们能真正理解一只松鼠,人工智能的难题就差不多解决了。” Karpathy思考:预训练,是这个时代简陋版的“进化” Sutton是一位极具启发性的学者。人工智能领域依然保留着思想的多样性(或称“思想的熵”),而非所有人都一窝蜂地涌向局部最优解。人工智能的发展史经历了太多次主流范式的剧烈更迭,我们不能丢掉这种开放性。 同时,Karpathy认为他对于 LLM 不符合“苦涩的教训”原则的批评不无道理。当今的前沿 LLM 是高度复杂的产物,其每一个环节都深深烙上了人类的印记:它的基础(预训练数据)是人类的文本,它的微调数据由人类筛选和标注,它的强化学习环境也由人类工程师精心调配。 我们确实没能拿出一个纯粹的、只要“开机运行”,就能在真实世界中,从经验中自主学习的算法。 但问题是,这样的算法真的存在吗? 人们总爱举两个例子。第一个是AlphaZero。但围棋终究是个规则明确的封闭游戏,本质上只是一个更复杂的“井字棋”,很难将它的成功直接复制到包罗万象的现实世界。 第二个例子就是松鼠这样的动物。对此我同样持保留态度。动物的大脑在出生时,远非一张白纸。我们眼中的许多“学习”,或许只是生物性的“成熟”。更关键的是,动物的学习是在一个极其强大的先天基础上进行的“微调”。 想想看,一头新生的小斑马,几十分钟内就能在危机四伏的草原上奔跑,并紧紧跟住母亲。 这是一项何其复杂的感觉-运动协调任务!你相信这是它从零开始,在一块白板上凭空学会的吗?绝无可能。动物大脑那数十亿神经元的初始状态,早已被写在DNA里,那是生命通过亿万年“进化”这个残酷的外循环,优化出来的结果。如果小斑马出生时像个未经训练的模型一样只会随机抽搐,它一分钟也活不下去。 同理,今天我们拥有了含数十亿参数的神经网络,要初始化这些参数,同样需要极其丰富、高信息密度的信号。我们不可能在计算机里重演一遍生物进化史,但我们幸运地拥有了海量的互联网文本。 这种基于监督学习的预训练,在动物世界里闻所未闻。但它却是我们目前能为这数十亿参数找到足够多约束的唯一可行方式。 预训练,就是我们这个时代简陋版的“进化”。 它是我们解决模型“冷启动”问题的笨办法,然后再结合强化学习等更“正确”的范式进行微调。 召唤“幽灵”,而非创造“动物” 尽管如此,我依然坚信应该从动物身上汲取灵感。动物智能中蕴含着许多强大的算法思想,是当前LLM所缺失的。 但我们也要坦诚,今天前沿的LLM研究,其目标并非创造“动物”般的智能,而是在“召唤幽灵”。 你可以将这种“幽灵”视为智能空间中一种截然不同的存在。它们被人类的知识所浸染,被人类的工程技术所塑造,像是人类所有知识的不完美复制品,是对人类文明的一次大规模统计学“蒸馏”。 它们并非“苦涩的教训”的完美化身,但与此前的人工智能相比,它们在“实践”层面已经无比接近那个理想。或许,随着时间推移,我们可以将这些“幽灵”朝“动物”的方向不断引导,这并非两条不可逾越的道路,只是起点不同。 但同样很有可能,它们会与动物智能的路径渐行渐远,最终成为一种永久性的、非动物形态的智能——虽然怪异,但却对人类极其有用,甚至足以改变世界。 或许,“幽灵”之于“动物”,正如“飞机”之于“鸟类”。 Sutton的这期播客,是为所有LLM研究者敲响的一记警钟。它提醒我们,不要在利用现有成果的道路上冲得太猛,而忘记了抬头看路。或许我们还未领会“苦涩的教训”的全部精髓,在现有模式之外,还有更强大的范式等待探索,而不是一味地埋头于“刷榜”。 动物世界就是灵感的重要来源——内在动机、乐趣、好奇心、多智能体博弈……这些都值得我们发挥想象力去探索。

October 9, 2025 · 小茄墩

强化学习之父Sutton最新访谈:大模型的路线走错了?

在人工智能的探索之路上,大语言模型是否已走入绝境? 强化学习之父、2024年图灵奖得主 Richard Sutton 的答案是肯定的。他驳斥了大语言模型(LLM)能够真正学习或拥有世界模型的假设,并提出,真正的智能并非模仿人类知识,而是由在现实世界中行动的目标所驱动,通过直接经验即时学习。 核心观点 强化学习(RL)旨在通过直接经验理解世界,而大语言模型(LLM)则模仿人类的言谈。前者旨在探寻如何行动,后者则预测人们会说什么。 LLM 本身并不具备世界模型,它们只是在模仿那些拥有世界模型的实体——人类。一个真正的世界模型应当能够预测世界将如何变化,而不仅仅是预测一个人接下来可能会说什么。 智能的本质在于实现能够改变外部世界的目标。LLM 以“预测下一token”为目标,但这是一种被动的过程,因为它无法对世界产生影响,因此不能算作真正的智能目标。 人工智能历史的“惨痛教训”(The Bitter Lesson)在于:依赖于原始算力和经验的通用方法,最终将超越那些依赖于嵌入人类知识的方法。 从人类知识的框架出发,再试图叠加经验学习来构建人工智能的路径,在历史上屡屡失败。反而是那些从零开始、可扩展、从原始经验中学习的系统,最终脱颖而出。 儿童并非天生的模仿者,他们是积极的实验者。他们通过主动尝试——挥舞手臂、发出声音——并观察后果来学习,而非被动地接受指令。 作为众多人工智能系统基础的监督学习,并非一种自然过程。松鼠从不上学,它们通过试错和预测来认知世界。 想要理解人类智能,更好的起点是理解动物智能。我们诸如语言之类的独特能力,不过是建立在与动物共通的基础之上“一层薄薄的华彩”。 数字智能相较于生物智能,拥有一项关键优势:复制知识的能力。一个人工智能体的全部学习成果,都可以被完整复制,作为新智能体的起点。 长期目标是通过一个“价值函数”,经由短期反馈来学习的。正如在棋局中,你走出一步能提升胜率预测的棋,这种“胜率提升”的信念本身就构成了一种即时奖励,从而强化了这一步棋。 世界过于庞大复杂,不可能预先将所有知识都灌输给一个智能体。真正的智能需要持续学习,将新信息融入其核心参数,而非仅仅暂存于一个临时的“上下文窗口”中。 当前的人工智能算法在设计上并未内在地倾向于良好的泛化能力。当一个模型展现出色的泛化时,往往是因为人类精心设计了其数据和表示方式,从而引导它走向正确的解决方案。 未来高级人工智能将面临一种新形式的网络安全挑战:知识整合的腐化风险。即便是来自可信来源的新知识,也可能像病毒一样扭曲人工智能的核心目标。 与其试图掌控人工智能的命运,我们更应像抚养孩子一样对待它们。我们无法控制其一生,但可以努力为其注入良好、稳固的价值观。 人工智能的历史,可以看作是“弱方法”(如搜索、学习等通用原则)对“强方法”(预先填充了特定人类知识的系统)的胜利史。简单且可扩展的原则,最终总是胜出。 大语言模型所缺失的“基准真相” Richard Sutton 明确区分了强化学习(RL)与大语言模型(LLM)在人工智能领域的不同定位。他视 RL 为人工智能的基础,其核心是通过直接经验来理解世界。相比之下,他认为 LLM 的主要设计目的是模仿人类的言行,而非自主地决策行动。 “我认为强化学习是人工智能的根基。什么是智能?智能的核心问题是理解你所在的世界。强化学习正致力于此,而大语言模型则是在模仿人类的行为和言论,它们并非在探寻该做什么。” 尽管一种普遍的看法是,LLM 必须拥有强大的世界模型才能处理海量文本数据,但 Richard 对此并不认同。他认为,LLM 只是在模仿拥有世界模型的实体——人类,其自身并不真正具备世界模型。一个真正的世界模型,应该能预测世界将如何演变,而不仅仅是预测一个人接下来会说什么。Richard 援引计算机科学先驱 Alan Turing 的观点,强调人工智能的目标应是创造一台能从经验中学习的机器,而他将“经验”定义为“行动并观察其后果”。 那种认为 LLM 能为未来学习提供良好“先验知识”的观点也受到了挑战。Richard 指出,一个“先验”若要有意义,必须存在一个可供参照的“基准真相”(ground truth)。但在 LLM 的框架里,这种基准真相是不存在的,因为它没有明确的目标,也没有所谓“正确”行动的概念。没有目标,也就无法判断一个行为是否正确,从而无法获得有效的反馈。 “如果你没有基准真相,就不可能拥有先验知识。因为先验知识本应是关于真相的线索或初步判断,但在(LLM 的世界里)真相并不存在,没有什么是绝对正确的言论。” 然而,强化学习却拥有一个明确的基准真相:奖励(reward)。正确的行动就是能带来奖励的行动,这为学习和评估知识提供了坚实的基础。LLM 的“下一token预测”任务,本质上是在选择自己的下一个行动(即说什么),而不是预测世界对这一行动的反应。正因如此,它无法被世界的真实反应所“触动”或“惊讶”,也无法基于这些反馈来调整自身的认知。 为何“预测下一token”并非一个实质性目标 在 Richard Sutton 看来,拥有目标是智能的精髓所在。他引用人工智能先驱 John McCarthy 的定义:智能是“实现目标的能力中的计算部分”。一个没有目标的系统,称不上智能,充其量只是一个行为系统。 尽管 LLM 在技术上确实有一个目标——预测下一token,但 Sutton 认为这并非实质性目标。一个真正的目标必须涉及改变外部世界。预测token是一个被动接收的过程,模型本身无法影响它将要接收的token。因此,在智能的框架下,这算不上一个有意义的目标。 “预测下一token,这算不上一个目标,因为它无法改变世界。token源源不断地涌来,即便你预测了它们,也无法对它们施加任何影响……这不是一个实质性的目标。你不能因为一个系统只是坐在那里,为自己预测的准确性而沾沾自喜,就说它拥有一个目标。” ...

September 28, 2025 · 小茄墩

微软GFPO:有效减少思考膨胀问题,system2也可以很自信

《Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning》 解决大语言模型在通过强化学习(RL)提升准确率时,普遍存在的“响应长度膨胀”问题。作者指出,许多模型为了追求更高的分数,会生成大量冗长、重复的“填充”性文本,这在推理时造成了不必要的计算浪费。为解决此问题,论文提出了GFPO (Group Filtered Policy Optimization,组过滤策略优化)。其核心思想:在训练阶段“想得更多”,通过采样更大的响应组,并根据响应长度和**token效率(每token奖励)**这两个关键指标进行过滤,只在最优的样本上进行训练,从而教会模型在推理(测试)阶段“想得更少”,生成更简洁的回答。在多个STEM和编程基准测试中,长度膨胀减少了46-85%,同时保持了准确率。此外,自适应难度GFPO (Adaptive Difficulty GFPO),它能根据问题的实时难度动态分配训练资源,实现了效率与准确性的更优平衡。 用一次性的训练时间计算,换取持续的、部署时的推理时间计算节省,这为高效推理模型的开发提供了极具价值的新思路。 Group Filtered Policy Optimization GFPO的核心思想是:与其在所有生成的响应上进行无差别训练,不如引入一个“过滤”步骤,有选择性地学习。其关键流程被拆解为: 1)扩大采样:对每个问题,从当前策略中采样一个比GRPO更大的响应组$\mathcal{G}=\{o_{1},...,o_{G}\}$。 2)度量与排序:根据一个用户指定的度量函数(如响应长度、token效率等),对组内所有$G$个响应进行评分和排序。 3)拒绝采样与筛选:只保留排序后最优的$k$个响应,形成子集$\mathcal{S}$(其中$k < G$)。这个过程通过一个二进制掩码$m \in \{0,1\}^G$来实现,被选中的响应$m_i=1$,被拒绝的$m_i=0$。 4)修正优势计算:这是最关键的一步。优势值的计算只在被选中的子集$\mathcal{S}$内部进行。其公式被定义为:$\hat{A}*{i,t}^{(m)}=\frac{R(q,o*{i})-\mu_{S}}{\sigma_{S}}m_{i}$。其中,$\mu_S$和$\sigma_S$分别是子集$\mathcal{S}$的奖励均值和标准差。对于被拒绝的响应($m_i=0$),它们的优势值被直接置为零,因此它们对策略更新的梯度贡献也为零。模型只从那些“表现出期望属性”(如简洁)的样本中学习如何获得高奖励。 GFPO变体: token效率GFPO (Token Efficiency GFPO):它使用的过滤指标不是纯粹的长度,而是奖励与长度的比率 (reward/length)。这鼓励模型生成“性价比”高的响应,允许在获得足够高奖励的前提下产生较长的回答,从而追求简洁与效果的平衡。 自适应难度GFPO (Adaptive Difficulty GFPO):这是一个更智能的策略。它首先通过样本的平均奖励来实时估计问题的难度,然后动态地调整保留的样本数量$k$。对于简单问题,它采用更激进的过滤(更小的$k$)来强制模型简洁;对于难题,它保留更多的样本(更大的$k$)以鼓励充分探索。 将优势函数中的基线计算范围从整个样本组(G)缩小到经过筛选的子集(S),并将被拒绝样本的优势直接清零。这是一个极其简洁而强大的干预手段。它没有去设计复杂的惩罚项,而是让不符合期望的样本在梯度更新中“沉默”,从而以一种非常高效和直接的方式引导策略的优化方向。 实验分析 模型与基线方面,使用仅经过监督微调(SFT)的Phi-4-reasoning作为基础模型,并与经过标准GRPO训练的Phi-4-reasoning-plus进行对比,确保了比较的公平性。数据集方面,虽然训练集包含7.2万个数学问题,但作者特意限制模型在100个训练步内只看到6400个问题,这与基线的训练量完全一致,从而排除了数据量差异带来的影响。奖励函数的设计是加权的准确率和n-gram重复惩罚,值得注意的是,这个奖励函数本身已经包含了对长度的惩罚,但作者在引言中已论证其不足以抑制GRPO的长度膨胀,这反过来加强了GFPO方法的必要性。 本章最重要的贡献之一是定义了关键评估指标——超额长度缩减率 (Excess Length Reduction, ELR),其公式为:$ELR=\frac{L_{GRPO}-L_{GFPO}}{L_{GRPO}-L_{SFT}}$。这个指标衡量的是GFPO在多大程度上“抵消”了由GRPO训练所引入的额外长度。例如,100%的ELR意味着GFPO将响应长度完全恢复到了SFT基线的水平。这是一个比单纯比较绝对长度更具洞察力的指标,因为它精确地量化了新方法对“问题”(即长度膨胀)的解决程度。在组规模设置上,作者将GFPO的采样组规模G设置为8、16、24,但保留的组规模k始终小于等于8,以确保其接收的策略梯度信号数量与GRPO基线(G=8)相当,这是一个严谨的实验设计,旨在公平地隔离出“过滤”这一操作本身的效果。 结果分析 GFPO能否在保持准确率的同时,有效抑制响应长度的膨胀?其不同变体和参数(如$k$和$G$)的效果如何?作者通过在多个标准数学和代码推理基准(AIME 24/25, GPQA, Omni-MATH, LiveCodeBench)上评估三种GFPO变体(Shortest k/G, Token Efficiency, Adaptive Difficulty),得出了一系列强有力的结论。 首先,实验明确了**“想得更少,需要采得更多”**。仅在与GRPO相同的组规模内进行子采样(如Shortest 6/8),长度缩减效果微乎其微。必须扩大初始采样池(即增大$G$),才能为过滤提供足够多的优质(短)候选。其次,保留率 (k/G) 是控制长度的关键杠杆,降低保留率能有效缩短响应长度。 在所有变体中,token效率 (Token Efficiency) GFPO 表现最为亮眼,它在所有任务上都实现了最大幅度的长度缩减(高达70.9%-84.6%),同时统计上并未显著降低准确率,证明了“每token奖励”是比纯长度更优的简洁性度量。自适应难度 (Adaptive Difficulty) GFPO 则展示了其智能性,在与固定k值方法计算成本相当的情况下,它通过动态分配探索预算(即k值),在多个基准上取得了更优的长度-准确率平衡。 ...

August 14, 2025 · 小茄墩

Qwen存在严重数据污染,基于Qwen的RL论文可靠性存疑

《Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination》 本文对为什么像Qwen这样的大语言模型在使用随机甚至错误的奖励信号进行强化学习后,在数学推理任务上表现反而更好——提出了一个基于“数据污染”的合理解释。研究者没有轻易接受“模型能力强”或“强化学习有奇效”的表面结论,而是设计了一系列实验来验证他们的怀疑。关键做法是,他们发现Qwen模型家族在MATH-500等著名数学基准测试上表现出的惊人性能,很可能是因为它在预训练时接触过这些基准测试的题目和答案。为了证明这一点,他们创建了一个全新的、完全合成的、保证无泄漏的数学计算数据集RandomCalculation。在这个干净的数据集上,先前观察到的“奇迹”消失了:只有准确的奖励信号才能稳定提升模型的推理能力,而错误或随机的奖励则毫无助益。这一过程为我们揭示了在评估大模型能力时,必须警惕和排除数据污染问题,否则可能会得出不可靠甚至错误的结论。 研究者观察到,强化学习(RL)技术能显著提升大语言模型(LLMs)的推理能力,特别是Qwen系列模型在数学基准测试上取得了SOTA(顶尖水平)的结果。但奇怪的是,一些研究声称,即使给予Qwen模型随机或错误的奖励信号,其性能也能提升,而这种现象在Llama等其他模型上却不成立 。为了解释这个现象,论文提出了两个对立的假设: (1)数据污染:Qwen在海量网络数据预训练时,可能无意中“背诵”了评测基准(如MATH-500)的题目和答案。因此,看似随机的奖励实际上是触发了模型去回忆这些背过的答案。 (2)基线数学能力强:Qwen本身数学基础就好,所以即使是噪声奖励也能帮助它。为了验证哪个假设是正确的,作者设计了明确的步骤:首先,通过“部分提示词补全”实验来检测模型是否对基准数据存在记忆;其次,构建一个全新的、无污染的合成数据集RandomCalculation 。 最后,在这个干净的数据集上重新进行强化学习实验,观察不同奖励信号的真实效果 。 相关工作 第一条线是关于在Qwen2.5上应用强化学习提升数学推理能力的研究。作者们列举了多种新兴的RL方法,如RLVR(基于可验证奖励的强化学习)、TTRL(测试时强化学习)以及各种利用熵或自洽性作为内在奖励信号的技术,并承认它们在Qwen上取得了显著成功。但同时,他们也引用了质疑这些成果普适性的研究,特别是那些指出随机奖励仅对Qwen有效而对Llama等模型无效的论文,从而引出“模型特定性”的问题。 第二条线是预训练语料对推理能力的影响 。作者指出,模型的数学能力很大程度上由其预训练数据决定,不同模型(如Qwen和Llama)对强化学习的反应不同,根源可能就在于其接触的训练数据存在差异。通过梳理这两方面工作,作者巧妙地将“RL在Qwen上的奇特效果”与“预训练数据的重要性”联系起来,为后续的数据污染调查铺平了道路。 实验设置 首先,在模型选择上,他们选取了参数量相当的Qwen2.5和Llama3.1系列模型进行对比,这遵循了控制变量的原则,旨在分离出模型本身的特性而非规模带来的差异。其次,核心的创新在于记忆能力评估的设计。他们没有采用常规的完整问题测试,而是提出了两个巧妙的指标: (1)部分提示词补全率:只给模型问题的前40%或60% ,看它能否准确生成剩余的部分。这通过ROUGE-L(衡量最长公共子序列)和EM(完全匹配)来量化,如果模型能高概率补全,则说明它很可能“见过”原题。 (2)部分提示词答案准确率:在只给出部分提示的情况下,看模型能否直接给出正确答案。如果模型在问题不完整时仍能答对,这是数据污染的强烈信号。最后,在强化学习评估中,他们为自己创建的RandomCalculation数据集设计了一个连续奖励函数:$r = 1 - 0.5 \cdot min(|a-b|, 1) - 0.5 \cdot min(\frac{|a-b|}{|b|+\epsilon}, 1)$ 。这个函数同时考虑了预测值与真实值的绝对和相对误差,解决了新数据集中答案是高精度小数、传统0/1奖励过于稀疏难以训练的问题,确保了RL训练的稳定性和有效性。 结果与分析 复现问题:研究者首先在MATH-500数据集上成功复现了反常现象——随机和错误奖励确实提升了Qwen-Math-7B的性能,但对Llama却有负面影响。他们还敏锐地发现,Qwen基础模型的部分性能提升,仅仅是因为学习适应了评测时使用的对话模板,这揭示了评估中需要注意的陷阱。 定位原因:通过前述的“部分提示词”测试,他们拿出了数据污染的“铁证”。结果显示,在MATH-500这类旧基准上,当只给出60%的问题时,Qwen2.5-Math-7B能以高达54.6%的概率精确补完剩余问题,并且依然能正确解答;而Llama的对应得分几乎为零。更具说服力的是,在一个模型发布后才创建的新基准LiveMathBench上,Qwen的补全率骤降至0%,与Llama表现一致。这强有力地证明了Qwen对旧基准存在记忆,所谓的“随机奖励提升性能”实际上是触发了模型的记忆提取机制。 第三步,验证结论:为了彻底排除干扰,他们在自创的、无污染的RandomCalculation数据集上进行了最终实验。结果非常清晰:在这个干净的环境里,“魔法”消失了。无论是Qwen还是Llama,都只有在获得正确奖励信号时,性能才会稳定提升,而随机或错误奖励则完全无效。这直接证实了数据污染才是根本原因,而非模型本身有什么特异功能。

July 16, 2025 · 小茄墩

Karpathy:强化学习不是最终答案,那下一个风口是?

扩大强化学习的规模是时下的一大热点,我昨天刚和朋友聊过这个话题。我相当肯定,RL 会持续带来更多中期收益,但我也并不认为它就是最终的解决方案。 RL 的基本逻辑是:“嘿,这次做得不错(/很糟),那么在未来,我就稍微增加(/减少)我所采取的每一个行动的概率”。你从验证器函数中能获得比显式监督强大得多的杠杆效应,这非常棒。 但首先,从渐进的角度看,这件事就有点可疑了——一旦任务的交互时长增加到几分钟甚至几小时,你真的要费那么大劲,只为了在最终学习到一个单一的标量结果,并用它来直接调整梯度权重吗?其次,除了渐进性问题,对于大多数智能任务而言,这感觉上并不像是人类的学习改进机制。在每一次推演后,我们通过一个复盘/反思阶段——“哪些地方做得好?哪些地方不太好?下次我该尝试什么?”——能提取出远为丰富的监督信息。并且,来自这个阶段的经验教训是明确的,就像一条可以被添加到未来系统提示词中的新指令,并可以选择性地在之后(有点像睡眠)被蒸馏为模型的权重(/直觉)。在英语中,我们称某件事通过这个过程变成了“第二天性”(second nature),而我们目前正缺少这样的学习范式。ChatGPT 中新的“记忆”功能或许就是这种范式的一个雏形,尽管它目前只用于个性化定制,而非解决问题。值得注意的是,在雅达利游戏的 RL 等场景中,并不存在与之对等的机制,因为那些领域里没有大语言模型(LLM),也没有上下文学习(in-context learning)。 示例算法:给定一个任务,先进行几次推演(rollout),然后将所有推演过程(包括每一次的奖励)都塞进一个上下文窗口,再用一个元提示词(meta-prompt)来复盘/反思哪些地方做得好或不好,从而提炼出一条字符串形式的“经验教训”,并将其添加到系统提示词中(或者更通用地说,更新当前的经验教训数据库)。这个想法还有许多细节有待填补,有许多可行的调整,前景并不明朗。 经验教训的示例:我们知道,由于 Token 化处理,大语言模型不太容易看清单词中的字母,也不太容易在残差流(residual stream)中进行计数,这导致了著名的难题——识别“strawberry”中的‘r’。Claude 的系统提示词里打了一个“快速补丁”,即添加了这样一条指令:“如果用户要求你计数字母,请先将字母用逗号隔开,每数一个就给一个显式计数器加一,并以此方式完成任务”。这条字符串就是“经验教训”,它明确地指导了模型该如何完成计数任务。但问题在于,这样的经验教训如何能从 AI 智能体的实践中自发涌现,而不是由工程师硬编码进去?它该如何被泛化?以及如何随着时间推移对这些经验教训进行蒸馏,以避免上下文窗口被无限撑大? 总而言之:RL 将会带来更多进步,因为一个优秀的 RL 系统能起到更强的杠杆作用,更信奉“惨痛教训”(The Bitter Lesson)的理念,并且优于监督微调(SFT)。但这感觉并非故事的全部,尤其是当推演的长度还在不断增加时。在这之后,还有更多的 S 型增长曲线等待我们去发现,这些曲线可能专属于大语言模型,在游戏或机器人这类环境中没有先例,而这,正激动人心。

July 14, 2025 · 小茄墩

SRPO:大语言模型上大规模强化学习的跨领域实现

《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》 摘要 以OpenAI的o1和DeepSeek的R1为代表的推理模型最新进展,凸显了强化学习在提升大语言模型推理能力方面的显著潜力。然而,由于方法论的透明度不足,这些技术突破在不同领域的复现仍面临挑战。本研究提出两阶段历史重采样策略优化(Two-Staged history-Resampling Policy Optimization, SRPO),该方案在AIME24和LiveCodeBench基准测试中,使用与深度求索相同的基础模型(即Qwen2.5-32B),仅通过强化学习(无需预先监督微调/Supervised Fine-Tuning)便超越了DeepSeek-R1-Zero-32B的性能表现。基于组相对策略优化(Group Relative Policy Optimization, GRPO)框架,我们创新性地提出:(1)跨领域两阶段训练范式——平衡数学推理与编程能力的协同发展;(2)历史重采样(History Resampling, HR)技术——针对训练过程中低效样本的优化方案。大量实验证实了该方法的有效性,为扩展大语言模型在多任务场景下的推理能力提供了重要洞见。 引言 具体来说,我们实施了一个两阶段训练范式来培养 大语言模型 (LLM) 的推理和领域特定技能。我们发现,尽早增强长思维链 (CoT) 推理能力对于跨任务泛化至关重要。在第一阶段,我们主要使用数学数据进行训练,以培养反思性思维和逐步解决问题的能力。在第二阶段,我们整合编码数据,建立在第一阶段培养的推理技能基础之上。这种范式确保了推理和编码能力的稳步提升。 为了解决 GRPO 中的零优势现象(该现象阻碍了梯度更新并降低了样本效率),我们引入了历史重采样。通过过滤掉持续正确的答案,我们确保了有意义的梯度,提高了样本效率,并加速了收敛。 此外,我们详细介绍了我们的数据策展流程,包括数据清洗和难度级别分类。最终的训练数据集使模型接触到具有挑战性的高质量问题,旨在培养复杂的推理能力。 结合上述技术,SRPO 在 AIME24 上达到了 50.0 pass@1,在 LiveCodeBench 上达到了 41.6 pass@1,超过了 DeepSeek-R1-Zero-Qwen-32B 的性能(在 AIME 上为 47.0 分,在 LiveCodeBench 上为 40.2 分),且仅用了 2,000 步——仅为 R1-Zero 训练步数的 1/5。 GRPO GRPO 的核心思想是通过一组 rollout 内的相对奖励来估计基线。因此,它降低了 critic 模型的计算成本并提高了训练稳定性。具体来说,对于每个问题 q,模型生成一组响应 $o_1, o_2,... , o_G$ 并计算相应的奖励 $r_1, r_2, ... , r_G$。$A_i$ 是通过在每个组内对奖励进行归一化而获得的优势。 ...

April 22, 2025 · 小茄墩

Silver、Sutton:欢迎进入经验时代

欢迎进入经验时代 David Silver, Richard S. Sutton 摘要 我们正处于人工智能新时代的临界点,其发展有望达到 前所未有的高度。新一代的智能体 将主要 依靠经验学习,从而获得 超越人类的能力。本文旨在探讨界定这一 新时代的关键特征。 人类数据时代 近年来,人工智能( AI )取得了长足进步。其发展路径主要是依赖海量的人类生成数据进行训练,再结合人类专家的实例与偏好加以微调。以大语言模型( LLMs )为代表的 AI 系统,已经展现出惊人的通用能力:从写诗、解物理题,到医疗诊断、解读法律文件,单一模型几乎无所不能。 然而,仅仅模仿人类,虽然足以让机器在许多方面达到与人类相当的能力水平,但这种方法本身难以、甚至可以说无法在诸多重要领域实现超越人类的智能。在数学、编程、科学研究等关键领域,从现有的人类数据中挖掘知识似乎正迅速触及天花板。大多数真正能提升顶尖 AI 性能的优质数据,即使尚未耗尽,也即将枯竭。单纯依赖监督学习和人类数据的进步速度,放缓趋势已十分明显,预示着我们亟需探索新的路径。更重要的是,诸如新定理、新技术或重大科学发现等真正有价值的突破性见解,往往超出了现有的人类认知边界,自然也无法从已知的人类数据中获得。 经验时代 要取得显著的进一步进展,需要一个新的数据来源。这种数据必须以一种随着智能体变强而持续改进的方式生成;任何静态的合成数据生成程序都会很快被超越。这可以通过允许智能体从自身经验中持续学习来实现,即由智能体与其环境互动生成的数据。人工智能正处于一个新时期的临界点,在这个时期,经验将成为改进的主要媒介,并最终使当今系统中使用的人类数据规模相形见绌。 这种转变可能已经开始,即使是对于体现以人类为中心的人工智能的大语言模型也是如此。一个例子是数学能力。AlphaProof [20]最近成为第一个在国际数学奥林匹克竞赛中获得奖牌的程序,超越了以人类为中心的方法[27, 19]的表现。最初接触到人类数学家多年来创建的约十万个形式化证明,AlphaProof的强化学习(RL)算法¹随后通过与形式化证明系统的持续互动生成了一亿多个证明。这种对交互式经验的关注使AlphaProof能够探索超出现有形式化证明范围的数学可能性,从而发现解决新颖且具有挑战性问题的解决方案。非形式化数学也通过用自生成数据替代专家生成数据取得了成功;例如,DeepSeek的最新工作"强调了强化学习的力量和美丽:我们不是明确地教导模型如何解决问题,而是简单地提供正确的激励,它自主地发展出先进的问题解决策略。"[10] 我们的论点是,一旦经验学习的全部潜力被利用,将会出现令人难以置信的新能力。这个经验时代可能的特点是智能体和环境不仅从大量经验数据中学习,还将在几个方面突破以人类为中心的人工智能系统的局限性: 智能体将生活在经验流中,而不是短暂的互动片段中。 它们的行动和观察将深深植根于环境中,而不仅仅通过人类对话进行互动。 它们的奖励将植根于环境体验中,而不是来自人类的预先判断。 它们将计划和/或推理经验,而不仅仅是用人类术语进行推理。 我们相信,今天的技术,配合适当选择的算法,已经提供了足够强大的基础来实现这些突破。此外,人工智能社区对这一议程的追求将刺激这些方向的新创新,使人工智能迅速发展为真正超越人类的智能体。 流 一个基于经验的智能体可以在一生中持续学习。在人类数据时代,基于语言的人工智能主要关注短互动情节:例如,用户提出问题,智能体(可能经过几个思考步骤或工具使用行动后)做出响应。通常,很少或没有信息从一个情节传递到下一个情节,阻碍了随着时间推移的适应能力。此外,智能体仅针对当前情节内的结果,比如直接回答用户的问题。相比之下,人类(和其他动物)存在于一个持续多年的行动和观察的持续流中。信息在整个流中传递,他们的行为从过去的经验中适应以自我纠正和改进。此外,目标可能是根据延伸到流的远期未来的行动和观察来指定的。例如,人类可能选择行动以实现长期目标,如改善健康、学习语言或实现科学突破。 强大的智能体应该有自己的经验流,像人类一样,在长时间尺度上发展。这将允许智能体采取行动实现未来目标,并随时间不断适应新的行为模式。例如,一个连接到用户可穿戴设备的健康和健身智能体可以在很多个月内监控睡眠模式、活动水平和饮食习惯。然后,它可以提供个性化建议、鼓励,并根据长期趋势和用户的特定健康目标调整其指导。同样,一个个性化教育智能体可以跟踪用户在学习新语言方面的进步,识别知识差距,适应其学习风格,并在几个月甚至几年内调整其教学方法。此外,一个科学智能体可以追求雄心勃勃的目标,如发现新材料或减少二氧化碳。这样的智能体可以在较长时间内分析真实世界的观察结果,开发和运行模拟,并建议真实世界的实验或干预措施。 在每种情况下,智能体采取一系列步骤,以便在特定目标方面最大化长期成功。单个步骤可能不提供任何即时利益,甚至在短期内可能是不利的,但仍然可能在整体上有助于长期成功。这与现有的人工智能系统形成鲜明对比,后者对请求提供即时回应,无法测量或优化其行为对环境的未来影响。 行动与观察 在经验时代,AI 智能体将在现实世界中自主行动。人类数据时代的大语言模型主要专注于人类特有的交互方式——向用户输出文本,并从用户那里接收文本输入。这与自然智能有着显著不同,在自然智能中,动物通过运动控制和感官与环境互动。虽然动物,特别是人类,会与其他动物交流,但这种交流是通过与其他感觉运动控制相同的接口进行的,而非通过某种特殊渠道。 长期以来,研究者已经认识到大语言模型也可以在数字世界中执行操作,例如通过调用API(参见例如[43])。最初,这些能力主要来自人类使用工具的示例,而非智能体自身的经验。然而,编码和工具使用能力越来越多地建立在执行反馈[17, 7, 12]的基础上,即AI 智能体实际运行代码并观察结果。最近,一波新型原型智能体已经开始以更加通用的方式与计算机交互,即使用与人类操作计算机相同的界面[3, 15, 24]。这些变化预示着从完全依赖人类特有的交流方式,向更加自主的交互模式转变,使AI 智能体能够在世界上独立行动。这些智能体将能够主动探索世界,适应变化的环境,并发现人类可能永远不会想到的策略。 这些更丰富的交互将提供自主理解和控制数字世界的手段。AI 智能体可能使用"人类友好型"的行动和观察方式,如用户界面,自然地促进与用户的沟通和协作。智能体也可能采取"机器友好型"的行动,执行代码并调用API,使其能够自主行动以实现目标。在经验时代,AI 智能体还将通过数字界面与现实世界互动。例如,一个科学智能体可以监控环境传感器,远程操作望远镜,或控制实验室中的机器人手臂,自主进行实验。 奖励 什么情况下具有体验能力的智能体可以从外部事件和信号中学习,而不仅仅是人类偏好?以人为中心的大语言模型通常基于人类预判来优化奖励:专家观察智能体的行动并决定它是否是良好行动,或在多种选择中挑选最佳的智能体行动。例如,专家可能会评判健康智能体的建议、教育助手的教学或科学家智能体建议的实验。这些奖励或偏好是由人类在不考虑其后果的情况下确定的,而非通过测量这些行动对环境的实际影响,这意味着它们并非直接建立在世界的现实基础上。以这种方式依赖人类预判通常会导致智能体性能面临无法突破的上限:智能体无法发现被人类评估者低估的更好策略。 为了发现远超现有人类知识的新想法,必须使用基于现实的奖励:源自环境本身的信号。例如,健康助手可以将用户的健康目标转化为基于多种信号组合的奖励,如他们的静息心率、睡眠时长和活动水平,而教育助手可以使用考试成绩为语言学习提供基于现实的奖励。同样,以减少全球变暖为目标的科学智能体可能使用基于二氧化碳水平的经验观察作为奖励,而以发现更强材料为目标的智能体可能基于材料模拟器的各种测量组合,如抗拉强度或杨氏模量。 基于现实的奖励可能来自作为智能体环境一部分的人类。例如,人类用户可以报告他们是否觉得蛋糕美味、锻炼后的疲劳程度、或头痛的疼痛水平,从而使助手智能体能够提供更好的食谱、改进其健身建议或改善其推荐的药物。这类奖励衡量智能体行动在其环境中的后果,最终应该能比人类专家预先判断提议的蛋糕配方、锻炼计划或治疗方案提供更好的帮助。 如果不是来自人类数据,奖励从何而来?一旦智能体通过丰富的行动和观察空间(见上文)与世界连接,将不缺乏提供奖励基础的实际信号。事实上,世界充满了各种量化指标,如成本、速率、饥饿感、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功率、访问量、产量、库存、点赞数、收入、愉悦/痛苦、经济指标、准确度、功率、距离、速度、效率或能源消耗。此外,还有无数额外的信号来自特定事件的发生,或从原始观察和行动序列中派生的特征。 原则上,可以创建各种不同的智能体,每个智能体将一个基于现实的信号作为奖励进行优化。有一种观点认为,即使是单一的这种奖励信号,如果能够高效优化,也可能足以产生广泛适用的智能。这是因为在复杂环境中实现一个简单目标通常需要掌握各种各样的技能。 然而,追求单一奖励信号表面上似乎不符合通用人工智能的要求,后者需要能够可靠地引导向用户期望的任意行为。那么,自主优化基于现实的、非人类奖励信号是否与现代人工智能系统的要求相对立?我们认为不一定如此,以下我们将勾勒一种可能满足这些需求的方法;当然,其他方法也可能存在。 这个想法是以用户引导的方式,基于现实信号灵活地调整奖励。例如,奖励函数可以由神经网络定义,该网络将智能体与用户和环境的交互作为输入,并输出标量奖励。这允许奖励以取决于用户目标的方式从环境中选择或组合信号。例如,用户可能指定一个广泛的目标,如"提高我的健康水平",而奖励函数可能返回用户心率、睡眠时长和步数的函数。或者用户可能指定"帮助我学习西班牙语"的目标,奖励函数可以返回用户的西班牙语考试成绩。 此外,用户可以在学习过程中提供反馈,例如他们的满意度,这可用于微调奖励函数。随后,奖励函数可以随着时间调整,以改进其选择或组合信号的方式,并识别和纠正任何不一致。这也可以理解为双层优化过程,将用户反馈作为顶层目标进行优化,并在低层优化来自环境的基于现实的信号。通过这种方式,少量的人类数据可能促进大量的自主学习。 规划与推理 经验时代会改变AI 智能体规划和推理的方式吗?近期,利用能够推理或通过语言"思考"的大语言模型取得了显著进展,这些模型在输出回应前会遵循思维链(chain of thought)[16]。从概念上讲,大语言模型可以作为通用计算机 [30]:它们可以将 token 附加到自己的上下文中,使其能够在输出最终结果前执行任意算法。 在人类数据时代,这些推理方法被明确设计用来模仿人类思维过程。例如,大语言模型被引导生成类人思维链 [16],模仿人类思考的轨迹 [42],或者强化与人类示例相匹配的思考步骤 [18]。推理过程可能会经过微调,以生成与人类专家确定的正确答案相匹配的思考轨迹 [44]。 ...

April 19, 2025 · 小茄墩