LLM | 一只小茄墩

DeepSeek OCR:上下文压缩的未来或许根本不属于文本领域

AI大模型正面临一个日益棘手的问题：长上下文处理效率低下。随着上下文窗口越来越大，模型处理信息的代价也水涨船高。Deepseek的想法是：上下文压缩的未来，或许可能在图像。换句话说，模型或许很快就能直接看见文本，而不是逐字读取文本，从而避免为超长序列支付高昂的代价。提到多模态，立刻想到Andrej Karpathy的一段思考。 Karpathy提到，OpenAI在创业初期就捣鼓过很多想法，但可惜顺序搞错了——他们必须先等到大语言模型出现才行。但即使是现在，时机成熟了吗？Karpathy也不敢100%肯定。他说，多模态能力（比如处理图像、视频、音频）在过去一两年才勉强和LLM整合到一起，而且很多时候还只是像个适配器一样被硬栓上去的。更糟糕的是，我们还没真正涉足过超长任务周期的领域。举个例子：一个视频包含的信息量是极其庞大的。Karpathy不确定我们是否能指望把这些信息一股脑儿全塞进上下文窗口，然后它就能奇迹般地搞定一切。他猜测，这个地方至少还需要一两个重大突破。首发于：https://mp.weixin.qq.com/s/UQlMrwnIg3o_SZYFKQeMvg 超长上下文：通向AGI的拦路虎 Karpathy指出的这个超长上下文问题，正是通向AGI路上必须攻克的大山。你想想，我们和AI的多轮文字对话，本身就是很长的文本上下文；如果对话里还夹杂着图片和表情包，那就是更复杂的图文长上下文。为了解决这个记不住、装不下的难题，很多研究都在琢磨怎么压缩上下文，同时尽可能保全原意。而DeepSeek团队本次从压缩角度出发，选择的切入点：用图像来压缩文本上下文。他们的见解是：我们能不能利用视觉这个模态，作为一种高效的文本信息压缩介质？一个包含文档文本的单个图像，可以用明显更少的Token代表丰富的信息。这一见解激励他们重新审视视觉-语言模型，侧重于视觉编码器如何增强LLM处理文本信息的效率。为什么是光学压缩？为了验证这个想法，OCR（光学字符识别）任务就成了一个完美的试验场。它就像一个天然的压缩-解压缩过程，而且还能用数据来衡量好坏。这也引出了一个非常关键的研究问题：一份包含1000个单词的文档，到底最少需要多少个视觉Token才能进行解码？搞清楚这个问题，对于研究一图胜过千言的真正原理，具有极其重要的意义。 DeepSeek-OCR：用光学压缩挑战上下文极限他们提出了一个名为 DeepSeek-OCR 的模型，这可以看作是一次用光学二维图像来压缩长上下文的可行性研究。这个模型由两部分组成：一个叫 DeepEncoder 的编码器（负责压缩），和一个叫 DeepSeek3B-MoE-A570M的解码器（负责解压）。你可以把 DeepEncoder 想象成一个超级压缩引擎。它的核心任务是：高压缩率：使劲把信息压扁。低激活度：在处理高分辨率图片时保持冷静，别太耗电。可控范围：确保最后产出的视觉Token数量处于最佳范围。而解码器则负责把这些压缩后的视觉信息解压回原来的文本。效果怎么样？当压缩比在 10倍以内时（例如，一篇1000个单词的文档被压缩成不到100个视觉Token），模型的解码（OCR）准确率高达 97%！就算狠一点，压到 20倍的压缩比，准确率也还能保持在 60% 左右。这展示了巨大的潜力，比如用在历史长上下文压缩上。揭秘DeepSeek-OCR的发动机为了实现这个目标，团队需要一个非常特别的视觉编码器（DeepEncoder），它必须满足几个苛刻条件：能处理高分辨率图片；处理高分图时激活度低；产生的视觉Token要少；啥分辨率都能吃；自身参数量还不能太大。市面上的开源编码器都无法满足，所以他们自己设计了DeepEncoder。它在架构：参数量：编码器约3.8亿（380M）参数，主要由 SAM-base（80M）和 CLIP-large（300M）拼接而成。解码器：采用30亿（3B）参数的MoE（混合专家）架构，在推理时激活5.7亿（570M）参数。压缩流程：举个例子，一张的图像进来，先被切成4096个小块（patch token）。这4096个token先经过参数量少的窗口注意力（不费劲），然后被一个卷积模块嗖地一下压缩到256个token，最后再喂给参数量大的全局注意力（因为token少了，也不费劲）。这样就稳稳地控制住了计算开销。多分辨率支持：它还支持多种分辨率模式。从512x512的微小模式（产生64个token），到1024x1024的基础模式（256个token），它都能处理。甚至还有一种Gundam模式，可以同时看n张局部小图和1张全局大图，专门对付那些超高分辨率的变态输入。喂什么，怎么炼？为了训好这个模型，团队准备了复杂多样数据： OCR 1.0 (基础款)：3000万页覆盖近100种语言的PDF，300万份Word文档（学公式和表格），2000万张自然场景图。 OCR 2.0 (进阶款)：1000万张图表（学着把图转成HTML表格）、500万个化学公式、100万张平面几何图。通用视觉数据 (开阔视野)：占总数据20%，用来保留模型的通用看图能力。纯文本数据 (学好说话)：占10%，确保模型的语言能力不掉队。训练流程很简单，就两步走： ...

Andrej Karpathy最新2h30min访谈：信息密度极高！关于智能体，大模型缺陷，强化学习，AGI等等的深度思考

强化学习其实很糟糕。但它之所以大行其道，仅仅是因为我们以前拥有的一切，都比它差得多。我本人其实非常乐观，我相信这事能成，问题终将解决。我之所以听起来悲观，只是因为当我看我的推特时间线时，上面充斥着太多在我看来毫无意义的东西。老实说，我认为其中很多噪音都只是为了筹集资金。我们实际上不是在构建动物。我们是在构建幽灵——一种空灵的精神实体。它们完全是数字化的，它们在模仿人类。这是一种截然不同的智能。这只是常规操作，因为我们早已身处一场持续了几十年的智能爆炸之中。一切都在逐渐被自动化，这个过程已经持续了数百年。所以，别再写博客文章了，别再做幻灯片了，别做那些务虚的事。去构建代码，整理它，让它真正工作起来。这是唯一的出路。否则，你就永远缺少关键的知识。当然，如果你有一个完美的人工智能导师，也许你可以走得非常远。但我认为，即便是今天所谓的天才们，也仅仅是触及了人类心智所能企及的表面而已。更好的阅读体验：Andrej Karpathy最新访谈：信息密度极高！关于智能体，大模型缺陷，强化学习，AGI等等的深度思考中文字幕视频版主持人：今天，我请到了 Andrej Karpathy。Andrej，你为什么说这将是智能体的十年（decade of agents），而不是智能体之年（year of agents）？ Andrej Karpathy：你刚才提到的智能体的十年这个说法，实际上是我对一个已有的引述的回应。我记得当时有些实验室——不确定具体是谁——在暗示今年将是智能体之年，特别是在LLM的发展方面。老实说，我当时被那句话刺激到了，因为它给我的感觉是行业里存在一些过度预测。在我看来，用十年来描述这个进程才更为准确。我们现在确实有了一些非常早期的智能体，它们的能力令人印象深刻，我每天都在用，比如 Claude 和 Codex。但我仍然觉得，我们还有漫长的路要走。所以我的反应是，我们很可能需要和这些东西共事十年。它们会不断进步，这当然很棒。但我主要想表达的是，我对那种过于激进的时间线持保留态度。主持人：那你认为需要十年才能完成什么？瓶颈在哪里？ Andrej Karpathy：嗯，简单来说，就是让它真正能用。在我的设想中，一个智能体应该几乎等同于你雇来一起工作的员工或实习生。你可以问问自己：你什么时候会宁愿让一个像 Claude 或 Codex 这样的智能体来做你手下员工正在做的工作？显而易见，现在它们还做不了。那还需要什么才能让它们做到？你今天为什么不用它们？你不用它们的根本原因，就是它们不好用，对吧？它们还不够智能，也不够多模态。它们虽然可以使用电脑，但你之前提到的很多任务它们都无法完成。它们没有持续学习能力——你不能只是告诉它们一件事，然后期望它们能记住。它们在认知上存在缺陷。总而言之，就是不好用。我只是直觉地认为，要解决所有这些问题，大约需要十年时间。主持人：这很有意思。作为一个专业的播客主持人和一个从远处观察 AI 的人，对我来说，识别出哦，这里缺少了什么是比较容易的，比如缺少持续学习能力，或者缺少多模态能力。但我真的不知道该如何预测解决这些问题的时间线。比如，如果有人问我，实现持续学习需要多长时间？我没有任何先验知识来判断这究竟是一个五年、十年还是五十年的项目。所以，为什么是十年？为什么不是一年或者三年？ Andrej Karpathy：我猜这主要凭我自己的直觉，以及基于我在这个领域的经验所做的推断，对吧？我从事 AI 行业大概有…快二十年了？也许没那么长，大概15年左右。你之前请来的 Richard Sutton，他在这个领域的时间当然比我长得多。但我确实有大约15年的经验，我见证过人们做出各种预测，也看到了它们最终的结果。我既在学术界待过，也在产业界工作过。所以，我猜我从这些经历中形成了一种普遍的直觉。我的感觉是：这些问题是可以解决的，也是可以克服的。但它们仍然非常困难。如果让我取个平均值，对我来说，感觉就像需要十年。大概就是这样。主持人：这真的很有趣。我不仅想了解历史，更想知道在那些不同的突破性时刻，身处现场的人们感觉即将发生什么。在哪些方面，他们的感觉被证明是过于悲观或过于乐观的？也许我们可以一个一个地来回顾一下？ Andrej Karpathy：这确实是个大问题，因为你谈论的是15年间发生的所有事。我的意思是，AI 这个领域实际上非常奇妙，因为它经历了很多次我称之为地震级的转变——突然之间，整个领域看起来就完全不一样了。我猜我可能亲身经历过两三次这样的转变，而且我仍然认为未来还会有更多，因为它们似乎以一种令人惊讶的规律性在出现。我职业生涯的开端，或者说我刚开始对深度学习产生兴趣时，很巧，我当时在多伦多大学，就在 Jeff Hinton 旁边。Hinton 教授，当然，就像是 AI 领域的教父级人物。他当时就在训练各种神经网络，我觉得这太不可思议了，也太有趣了。但需要强调的是，这在当时远非 AI 领域的主流。它最初只是一个旁支学科。我想，第一次戏剧性的地震，就是伴随着 AlexNet 的出现而发生的。AlexNet 重新定位了所有人，每个人都开始转向训练神经网络。但那时候，研究仍然是高度针对特定任务的。比如，我训练一个图像分类器，或者一个神经机器翻译器，彼此独立。在那之后，人们开始非常缓慢地对智能体产生兴趣。大家开始思考：好吧，我们可能在视觉皮层旁边打了个勾，但大脑的其他部分呢？我们如何才能构建一个真正的、完整的智能体，一个能够真正在世界中互动的实体？我会说，2013年左右的 Atari 深度强化学习浪潮，就是早期智能体探索的一部分。它试图让智能体不仅能感知世界，还能采取行动、互动并从环境中获得奖励。当时的环境就是雅达利游戏，对吧？ ...

大模型界的Karpathy地震｜Andrej Karpathy访谈后记

Andrej Karpathy 又重看了一遍自己的访谈，并澄清和深化一些关键观点。Karpathy引用了不少之前写的帖，在本文用【】表示。更好的阅读体验，求求：大模型界的Karpathy地震｜Andrej Karpathy访谈后记 1. AGI 时间线关于这方面的评论似乎是早期反响中最火的。我提到这是智能体的十年，是引用了我之前的这条推文： 2025.1.24 OpenAI发布Operator，Karpathy评论【像OpenAI的 Operator 这样的项目，对数字世界意味着什么？它就像人形机器人对物理世界一样。它们两者都试图在一个通用设定下工作——人形机器人用的是人体，而Operator用的是显示器、键盘和鼠标。它们都通过最初为人类设计的输入/输出接口，去逐步学习执行各种通用任务。这两种情况，都会把我们带向一个人机混合自治的世界。在这个世界里，人类成了高级主管，负责监督底层的自动化工作。这有点像司机监控着特斯拉的自动驾驶系统一样。这种变革在数字世界会比在物理世界快得多。为什么？因为在数字世界里处理信息的成本，大概比在物理世界里制造实物要便宜1000倍。尽管如此，物理世界的市场规模和机会感觉上要大得多。事实上，我们在OpenAI创业初期就捣鼓过这个想法（可以参考我们当年的 Universe 和 World of Bits 项目），但可惜顺序搞错了——我们得先等到大语言模型出现才行。即使是现在，我也不敢100%肯定时机已经成熟。你看，多模态能力（也就是处理图像、视频、音频）在过去一两年才勉强跟大语言模型整合到一起，而且很多时候还只是作为适配器硬栓上去的。更糟糕的是，我们还没真正涉足过超长任务周期的领域。举个例子，视频包含的信息量是极其庞大的。我可不确定我们是否能指望把这些信息一股脑儿全塞进上下文窗口（这是目前的主流范式），然后它就能奇迹般地搞定一切。我猜，这个地方至少还需要一两个重大突破。我在社交媒体上看到有人说 2025 年是智能体之年。我个人倒觉得，2025年到2035年，这整整十年，是智能体的十年。我感觉，要让它真正落地，我们还有铺天盖地的工作要做。但它应该能成。今天，Operator 也许有时候能帮你上 DoorDash 订个午餐，或者查查酒店什么的。而到了明天，你将能孵化出 Operator 组织，让它们为你执行你选择的长期任务（例如，运营一整家公司）。你会像个CEO，同时监控着 10 个这样的智能体员工，也许偶尔需要亲临一线去解决某个卡壳的问题。到那时，事情就会变得非常有趣了。】简单来说，我对 AI 时间线的看法，比你在旧金山 AI 派对上或推上听到的普遍预测要悲观 5 到 10 倍，但比起那些日益增长的 AI 否定者和怀疑论者，我又要乐观得多。这其中的矛盾其实并不存在：在我看来，我们是同时 1) 见证了近年来大语言模型的巨大进步，并且 2) 距离我们能真正拥有一个在任何工作上都比人类更值得雇佣的实体，也还有海量的工作要做。这些工作包括：脏活累活、集成工作、连接物理世界的传感器和执行器、社会层面的工作，以及安全和安保工作，当然还有很多研究有待完成。总的来说，我认为 10 年实现 AGI 已经是一个非常激进的时间表了，只是在当今的炒作氛围下，大家才不这么觉得。 2. 动物 vs. 幽灵这是我之前关于 Sutton 播客的读后感：【suton读后感】我一直很怀疑，是否存在一种单一的、简单的算法，你只要把它扔到世界上，它就能从零开始学会一切。如果真有人造出了这种东西，那我就是错的，而那也将是 AI 领域最不可思议的突破。在我看来，动物根本不是这种模式的例子——它们通过进化，被预装了大量的智能，它们后续做的学习总体上是相当微小的（例如：刚出生的斑马）。戴上我们工程师的帽子来看，我们不可能去复现整个进化过程。但通过 LLM，我们偶然发现了一种替代方法来预装海量智能——不是靠进化，而是靠在互联网上预测下一个token。这种方法催生了智能空间中一种截然不同的实体。它不同于动物，更像是幽灵或灵魂。但是，我们能够让它们随着时间推移变得更像动物，从某些方面说，这正是许多前沿工作的意义所在。 ...

想从零开始，复刻一个你自己的 ChatGPT 吗？Andrej Karpathy 的 nanochat 项目来了！

AI 大神 Andrej Karpathy 再度带来惊喜，发布了名为 nanochat 的全新项目。他将其描述为自己写过的最放飞自我的代码库，它将作为其备受期待的 LLM 课程的一部分。 nanochat 的核心理念是极简与一站式。它将训练一个类 ChatGPT 模型所需的全流程——从数据处理、预训练、对齐微调，到最终的推理部署与 WebUI——整合在了一个仅有 8300 行的清晰代码库中。整个过程被设计得极其简单：你只需一台云端 GPU 服务器，运行一个脚本，最快在 4 小时内，就能与你亲手训练出的 AI 模型在专属的网页上进行对话。这个 AI 全家桶包含哪些核心组件？ Karpathy 为你打包了构建 ChatGPT 的完整工作流：高效分词器 (Tokenizer): 使用 Rust 语言从零开始实现，保证高性能。模型预训练 (Pre-training): 在经典的 FineWeb 数据集上进行，并提供 CORE 等多维度评估指标。对齐微调 (Fine-tuning): 教授模型如何像 AI 助手一样对话、完成选择题，甚至学习使用计算器等外部工具。评测基准覆盖常识推理 (ARC)、知识问答 (MMLU)、数学 (GSM8K) 和代码生成 (HumanEval)。强化学习 (RL): (可选) 可在 GSM8K 数学任务上，使用 GRPO 算法进行强化学习，进一步提升模型能力。推理与部署 (Inference & Deployment): 提供一个包含 KV cache 优化的高效推理引擎，支持命令行 (CLI) 和一个精致的 ChatGPT 风格 WebUI 进行交互，并内置了用于工具调用的轻量级 Python 沙箱。 ...

Andrej Karpathy谈：我们真的读懂了“苦涩的教训”吗？

Andrej Karpathy谈到强化学习之父Richard Sutton参与的一期播客，内容实在发人深省，甚至有些颠覆认知。 Sutton写过一篇名为《苦涩的教训》(The Bitter Lesson) 的经典文章，这篇文章在当今大语言模型（LLM）的圈子里，几乎被奉为金科玉律。研究者们在日常讨论中，常常会衡量一种方法或理念是否足够遵循“苦涩教训”——即该方法，它能不能简单粗暴地随着算力的增加而持续变强？这背后的潜台词是：大语言模型，就是“苦涩的教训”最完美的代言人。你看那漂亮的scaling laws曲线，只要给够计算资源，模型性能就能一路攀升，简单又强大。有趣的是，《苦涩的教训》的作者Sutton本人，却对LLM这个“模范生”的资格提出了质疑。 Sutton指出，LLM的训练数据，本质上全部来自人类，不仅是人类创造的，总量也终将有尽头。当数据被“喂”完时怎么办？模型又该如何摆脱数据中根深蒂固的人类偏见？于是，那些将“苦涩教训”奉为圭臬的 LLM 研究者们，就这样被原则的提出者本人泼了一盆冷水首发于：Andrej Karpathy谈：我们真的读懂了“苦涩的教训”吗？ Sutton的理想：造“松鼠”，而非“幽灵” 播客里主持人和Sutton的对话，颇有些“鸡同鸭讲”。因为Sutton脑海中的智能，与今天LLM的构建逻辑，几乎背道而驰。 Sutton自称“古典主义者”，他推崇的是图灵最初的设想——建造一台“孩童机器” (child machine)。这种机器不需要吞下半个互联网进行预训练，而是像个真正的孩子一样，通过与真实世界的互动，从自己的亲身经历中学习。在Sutton的理想国里，不存在模仿海量内容的“预训练”阶段，更没有所谓的“监督式微调”。他指出，监督微调这种手把手教的机制在动物界根本不存在（确实如此：动物或许会观察模仿，但绝不会被同类“远程操控”着完成每一个动作）。更重要的是，有人认为预训练只是给模型灌输一些“先验知识”，好让它在后续的强化学习中能有个不错的起点。但在Sutton看来，这条路从一开始就被人类的偏见“污染”了，已经走歪了。这就像当年的AlphaZero（从零开始，不学人类棋谱）最终战胜了AlphaGo（从人类棋谱起步）一样。在Sutton的世界观里，智能的唯一正途，就是通过强化学习与世界互动。驱动这种互动的，一部分是环境的奖励，但更重要的，是源于“乐趣”、“好奇心”这类内在动机。而且，智能体应该时时刻刻都在学习，而不是“一次训练，永久部署”。 Sutton更关心人类与动物王国的共通之处。他有句名言：“如果我们能真正理解一只松鼠，人工智能的难题就差不多解决了。” Karpathy思考：预训练，是这个时代简陋版的“进化” Sutton是一位极具启发性的学者。人工智能领域依然保留着思想的多样性（或称“思想的熵”），而非所有人都一窝蜂地涌向局部最优解。人工智能的发展史经历了太多次主流范式的剧烈更迭，我们不能丢掉这种开放性。同时，Karpathy认为他对于 LLM 不符合“苦涩的教训”原则的批评不无道理。当今的前沿 LLM 是高度复杂的产物，其每一个环节都深深烙上了人类的印记：它的基础（预训练数据）是人类的文本，它的微调数据由人类筛选和标注，它的强化学习环境也由人类工程师精心调配。我们确实没能拿出一个纯粹的、只要“开机运行”，就能在真实世界中，从经验中自主学习的算法。但问题是，这样的算法真的存在吗？人们总爱举两个例子。第一个是AlphaZero。但围棋终究是个规则明确的封闭游戏，本质上只是一个更复杂的“井字棋”，很难将它的成功直接复制到包罗万象的现实世界。第二个例子就是松鼠这样的动物。对此我同样持保留态度。动物的大脑在出生时，远非一张白纸。我们眼中的许多“学习”，或许只是生物性的“成熟”。更关键的是，动物的学习是在一个极其强大的先天基础上进行的“微调”。想想看，一头新生的小斑马，几十分钟内就能在危机四伏的草原上奔跑，并紧紧跟住母亲。这是一项何其复杂的感觉-运动协调任务！你相信这是它从零开始，在一块白板上凭空学会的吗？绝无可能。动物大脑那数十亿神经元的初始状态，早已被写在DNA里，那是生命通过亿万年“进化”这个残酷的外循环，优化出来的结果。如果小斑马出生时像个未经训练的模型一样只会随机抽搐，它一分钟也活不下去。同理，今天我们拥有了含数十亿参数的神经网络，要初始化这些参数，同样需要极其丰富、高信息密度的信号。我们不可能在计算机里重演一遍生物进化史，但我们幸运地拥有了海量的互联网文本。这种基于监督学习的预训练，在动物世界里闻所未闻。但它却是我们目前能为这数十亿参数找到足够多约束的唯一可行方式。预训练，就是我们这个时代简陋版的“进化”。它是我们解决模型“冷启动”问题的笨办法，然后再结合强化学习等更“正确”的范式进行微调。召唤“幽灵”，而非创造“动物” 尽管如此，我依然坚信应该从动物身上汲取灵感。动物智能中蕴含着许多强大的算法思想，是当前LLM所缺失的。但我们也要坦诚，今天前沿的LLM研究，其目标并非创造“动物”般的智能，而是在“召唤幽灵”。你可以将这种“幽灵”视为智能空间中一种截然不同的存在。它们被人类的知识所浸染，被人类的工程技术所塑造，像是人类所有知识的不完美复制品，是对人类文明的一次大规模统计学“蒸馏”。它们并非“苦涩的教训”的完美化身，但与此前的人工智能相比，它们在“实践”层面已经无比接近那个理想。或许，随着时间推移，我们可以将这些“幽灵”朝“动物”的方向不断引导，这并非两条不可逾越的道路，只是起点不同。但同样很有可能，它们会与动物智能的路径渐行渐远，最终成为一种永久性的、非动物形态的智能——虽然怪异，但却对人类极其有用，甚至足以改变世界。或许，“幽灵”之于“动物”，正如“飞机”之于“鸟类”。 Sutton的这期播客，是为所有LLM研究者敲响的一记警钟。它提醒我们，不要在利用现有成果的道路上冲得太猛，而忘记了抬头看路。或许我们还未领会“苦涩的教训”的全部精髓，在现有模式之外，还有更强大的范式等待探索，而不是一味地埋头于“刷榜”。动物世界就是灵感的重要来源——内在动机、乐趣、好奇心、多智能体博弈……这些都值得我们发挥想象力去探索。

Claude 4 正式发布！

正式发布新一代 Claude 系列模型：Claude Opus 4 与 Claude Sonnet 4。这两款模型旨在为编程、高级推理及 AI 智能体领域树立全新标杆。 Claude Opus 4 堪称全球顶尖的编程模型，在处理复杂且耗时较长的任务以及智能体工作流方面表现出持续稳定的卓越性能。 Claude Sonnet 4 则是在 Claude Sonnet 3.7 基础上的显著升级，它不仅编程和推理能力更为出色，响应指令也更为精准。除模型本身外，我们同时宣布以下更新：利用工具进行扩展思考（测试版）：两款模型均能在扩展思考过程中调用工具（例如网络搜索），使 Claude 能在推理与工具运用间灵活切换，从而优化输出结果。新增模型功能：两款模型皆可并行使用工具，更精准地遵循指令。此外，在获得开发者授予的本地文件访问权限后，模型将展现大幅提升的记忆能力，能够提取并储存关键信息，确保任务的连贯性，并逐步积累隐性知识。 Claude Code 正式上线：鉴于研究预览版获得了广泛好评，我们进一步拓展了开发者与 Claude 的协作模式。目前， Claude Code 可通过 GitHub Actions 支持后台任务，并已与 VS Code 及 JetBrains 实现原生集成，可直接在用户文件中显示编辑内容，助力无缝结对编程。 API 新增功能：我们在 Anthropic API 上推出了四项新功能，赋能开发者构建更为强大的 AI 智能体。这些功能包括：代码执行工具、 MCP 连接器、 Files API ，以及长达一小时的提示缓存能力。 Claude Opus 4 与 Sonnet 4 均为混合模型，提供两种运行模式：近乎即时的快速响应与用于深度推理的扩展思考模式。 Claude 的 Pro 、 Max 、 Team 及 Enterprise 订阅计划均包含这两款模型及扩展思考功能，同时 Sonnet 4 亦向免费用户开放。这两款模型已登陆 Anthropic API 、 Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台。其定价策略与前代 Opus 及 Sonnet 模型持平： Opus 4 的输入/输出价格为每百万 tokens $15/$75 ， Sonnet 4 则为 $3/$15 。 ...

大型语言模型“思考”的陷阱：推理如何影响指令遵循

摘要研究者发现，无论是经过专门推理训练还是通过思维链提示的推理增强型大型语言模型（RLLM），在执行许多复杂推理任务时已达到顶尖水平。然而，一个出乎意料且此前被忽视的现象是，明确的思维链推理会显著削弱模型遵循指令的准确性。通过在两个基准（IFEval，包含简单的、规则可验证的约束；ComplexBench，包含复杂的、组合性约束）上评估15个模型，研究一致观察到，当应用思维链提示时，性能会出现下降。大规模案例研究和基于注意力的分析揭示了推理在何处有益（例如，格式化或词汇精度）或有害（例如，忽略简单约束或引入不必要内容）的常见模式。研究者提出了一个名为“约束注意力”的指标，用以量化模型在生成过程中对指令的关注程度，并表明思维链推理常常将注意力从与指令相关的标记上移开。为减轻这些影响，研究引入并评估了四种策略：情境学习、自我反思、自我选择性推理和分类器选择性推理。结果表明，选择性推理策略，特别是分类器选择性推理，可以大幅恢复损失的性能。据研究者所知，这是首次系统性揭示推理引发的指令遵循失败并提供实用缓解策略的研究。 1. 引言研究者提出了一个核心问题：明确的推理是否真的能帮助模型更准确地遵循指令？本文通过实证研究得出了一个令人惊讶的结论：通过思维链进行推理会降低模型遵循指令的能力。为了系统评估大型语言模型的指令遵循情况，引入了IFEval和ComplexBench等基准测试。 3. 实验实验部分详细介绍了评估模型指令遵循能力所使用的数据集、评估指标、参与评估的模型以及思维链提示的应用方式。研究使用了IFEval和ComplexBench两个基准数据集。IFEval包含541个提示，每个提示都与一到三个可验证的约束相关联，这些约束来自25种类型（例如，字数、格式、关键词使用）。ComplexBench是一个手动策划的数据集，旨在评估模型在通过“与”、“链”、“选择”和“嵌套”等操作形成的复杂组合指令上的表现。评估指标主要关注每个指令中满足的约束的比例。研究评估了包括闭源模型（如GPT-40-mini, Claude3.7-Sonnet）和专注于推理的模型（如DeepSeek-R1, Qwen-R1-distilled变体）在内的多种模型。实验结果一致显示，当应用思维链提示时，几乎所有模型在IFEval和ComplexBench上的性能都出现了下降。例如，Llama3-8B-Instruct的准确率从75.2%下降到59.0%，降幅超过16个百分点。 4. 分析 (Analysis) 为了理解推理何时以及为何会降低指令遵循能力，研究者进行了两项分析：一项手动案例研究，检查思维链在何时帮助或损害约束满足；以及一项基于注意力的分析，调查推理如何在生成过程中将模型注意力从约束上移开。在案例研究中，研究者发现推理在满足格式或结构要求以及强制执行覆盖默认倾向的词汇约束方面有所帮助。然而，当多个约束存在时，推理通常会过分关注高级内容规划而忽略简单的机械约束，或者引入多余的或善意的内容，从而无意中违反约束。在基于注意力的分析中，研究者提出了“约束注意力”指标，用于量化模型对指令中约束标记的关注程度。分析表明，明确的推理通常会减少对提示中与约束相关部分的注意力，这种意识的减弱增加了违反指令的风险。 5. 减轻推理引发的指令遵循失败针对推理导致指令遵循性能下降的问题，研究者提出并评估了四种缓解策略：少样本情境学习、自我反思、自我选择性推理和分类器选择性推理。少样本情境学习：通过在每个指令前添加精心挑选的少样本示例来进行，这些示例源自案例研究中发现的代表性失败案例，并经过手动修改以完全满足所有约束。然而，由于令牌长度限制和每个示例的巨大体量，该方法改进效果有限。自我反思：模型首先生成带有思考过程的初始响应，然后在第二次推理中反思其自身的推理和答案。如果模型认为初始响应满意，则保留它作为最终输出；否则，它会修改响应并输出更新后的版本。自我反思在IFEval上产生了显著的改进，但在较弱的模型和包含更具挑战性指令的ComplexBench上效果较差，并且计算成本较高。自我选择性推理：允许模型动态决定是否执行明确的推理。模型根据指令自行评估是否需要思维链推理。此方法在IFEval上取得了适度的收益，在ComplexBench上表现更强。分析发现，模型倾向于高召回率（正确识别大多数推理有益的情况），但精确率较低，即使在不必要时也经常应用推理。分类器选择性推理：使用外部二进制分类器来确定是否应应用思维链推理。研究者为每个目标模型训练一个单独的分类器，以预测使用思维链是否会导致指令遵循性能的提高。该方法被证明非常有效，几乎在所有模型的两个基准测试中都提高了性能。然而，其主要缺点是需要针对每个模型进行特定的训练。研究者基于这些发现提出了一个决策流程：首先，通过简单启发式或训练好的分类器估计指令的复杂性。对于较简单的任务，推荐自我反思或分类器选择性推理；对于更复杂或组合性的任务，自我选择性推理或分类器选择性推理更有效。总体而言，分类器选择性推理在两个基准测试中始终提供最佳的整体性能，尽管需要针对模型进行特定训练。 6. 结论研究确定并系统地探讨了一个出乎意料的现象：通过思维链提示进行的明确推理会对大型语言模型的指令遵循能力产生负面影响。通过在IFEval和ComplexBench两个综合基准上的广泛评估，研究证明了当模型采用明确推理时，性能会持续下降。详细的分析，包括手动案例研究和基于注意力的检查，揭示了推理如何分散模型对与约束相关的标记的注意力，从而导致指令被忽略或违反。提出的四种缓解策略，特别是分类器选择性推理，可以大幅恢复损失的性能。研究者希望这些发现能激发对推理权衡的进一步研究，并有助于构建更具选择性和有效性的推理模型。

大语言扩散模型

摘要该论文挑战了自回归模型 (ARM) 作为大型语言模型 (LLM) 基石的普遍看法，引入了一种从头开始训练的扩散模型 LLaDA 。LLaDA 通过前向数据掩码过程和由标准 Transformer 参数化的反向过程（用于预测被掩码的词元）来建模数据分布。通过优化似然边界，它为概率推断提供了一种有原则的生成方法。论文表明 LLaDA 具有强大的可扩展性，在上下文学习方面 LLaDA 8B 能与 LLaMA3 8B 等强LLM相媲美，并在监督微调 (SFT) 后展现出令人印象深刻的指令遵循能力，例如在多轮对话中。此外，LLaDA 解决了“逆转诅咒”问题，在逆转诗歌补全任务中超越了 GPT-4o 。这些发现确立了扩散模型作为 ARM 的一种可行且有前景的替代方案。引言引言首先指出大型语言模型 (LLM) 完全属于生成模型的范畴，其目标是通过优化模型分布 $p_θ(⋅)$ 来捕捉真实但未知的数据分布 $p_{data}(⋅)$，通常通过最大化对数似然或最小化KL散度实现当前主流方法依赖自回归模型 (ARM)，即下一词元预测范式自回归范式是否是实现 LLM 智能的唯一路径？他们认为，LLM 的基本特性（如可扩展性、指令遵循、上下文学习）源于通用的生成模型原理（公式1），而非自回归结构本身。ARM 自身存在固有限制，如序列化生成计算成本高，以及在逆向推理任务中效果不佳。受此启发，论文引入 LLaDA（Large Language Diffusion with mAsking），一种基于掩码扩散模型 (MDM) 的方法，通过离散随机掩码过程及其逆过程来构建模型，旨在探索超越 ARM 的生成模型路径。LLaDA 的贡献主要体现在：证明了扩散模型的可扩展性，展示了其强大的上下文学习能力、指令遵循能力以及解决逆转推理问题的潜力。方法本章详细介绍了 LLaDA 的概率公式、预训练、监督微调 (SFT) 和推理过程。其核心思想是通过一个前向的掩码过程和一个反向的去噪（预测掩码）过程来定义模型分布 $p_θ(x_0)$ 。在概率公式部分，LLaDA 的核心是一个掩码预测器 $p_θ(⋅∣x_t)$，它接收部分被掩码的序列 $x_t$ 作为输入，并同时预测所有被掩码的词元 (M) 。训练目标是优化: ...