Posts

DeepSeek OCR:上下文压缩的未来或许根本不属于文本领域

AI大模型正面临一个日益棘手的问题：长上下文处理效率低下。随着上下文窗口越来越大，模型处理信息的代价也水涨船高。Deepseek的想法是：上下文压缩的未来，或许可能在图像。换句话说，模型或许很快就能直接看见文本，而不是逐字读取文本，从而避免为超长序列支付高昂的代价。提到多模态，立刻想到Andrej Karpathy的一段思考。 Karpathy提到，OpenAI在创业初期就捣鼓过很多想法，但可惜顺序搞错了——他们必须先等到大语言模型出现才行。但即使是现在，时机成熟了吗？Karpathy也不敢100%肯定。他说，多模态能力（比如处理图像、视频、音频）在过去一两年才勉强和LLM整合到一起，而且很多时候还只是像个适配器一样被硬栓上去的。更糟糕的是，我们还没真正涉足过超长任务周期的领域。举个例子：一个视频包含的信息量是极其庞大的。Karpathy不确定我们是否能指望把这些信息一股脑儿全塞进上下文窗口，然后它就能奇迹般地搞定一切。他猜测，这个地方至少还需要一两个重大突破。首发于：https://mp.weixin.qq.com/s/UQlMrwnIg3o_SZYFKQeMvg 超长上下文：通向AGI的拦路虎 Karpathy指出的这个超长上下文问题，正是通向AGI路上必须攻克的大山。你想想，我们和AI的多轮文字对话，本身就是很长的文本上下文；如果对话里还夹杂着图片和表情包，那就是更复杂的图文长上下文。为了解决这个记不住、装不下的难题，很多研究都在琢磨怎么压缩上下文，同时尽可能保全原意。而DeepSeek团队本次从压缩角度出发，选择的切入点：用图像来压缩文本上下文。他们的见解是：我们能不能利用视觉这个模态，作为一种高效的文本信息压缩介质？一个包含文档文本的单个图像，可以用明显更少的Token代表丰富的信息。这一见解激励他们重新审视视觉-语言模型，侧重于视觉编码器如何增强LLM处理文本信息的效率。为什么是光学压缩？为了验证这个想法，OCR（光学字符识别）任务就成了一个完美的试验场。它就像一个天然的压缩-解压缩过程，而且还能用数据来衡量好坏。这也引出了一个非常关键的研究问题：一份包含1000个单词的文档，到底最少需要多少个视觉Token才能进行解码？搞清楚这个问题，对于研究一图胜过千言的真正原理，具有极其重要的意义。 DeepSeek-OCR：用光学压缩挑战上下文极限他们提出了一个名为 DeepSeek-OCR 的模型，这可以看作是一次用光学二维图像来压缩长上下文的可行性研究。这个模型由两部分组成：一个叫 DeepEncoder 的编码器（负责压缩），和一个叫 DeepSeek3B-MoE-A570M的解码器（负责解压）。你可以把 DeepEncoder 想象成一个超级压缩引擎。它的核心任务是：高压缩率：使劲把信息压扁。低激活度：在处理高分辨率图片时保持冷静，别太耗电。可控范围：确保最后产出的视觉Token数量处于最佳范围。而解码器则负责把这些压缩后的视觉信息解压回原来的文本。效果怎么样？当压缩比在 10倍以内时（例如，一篇1000个单词的文档被压缩成不到100个视觉Token），模型的解码（OCR）准确率高达 97%！就算狠一点，压到 20倍的压缩比，准确率也还能保持在 60% 左右。这展示了巨大的潜力，比如用在历史长上下文压缩上。揭秘DeepSeek-OCR的发动机为了实现这个目标，团队需要一个非常特别的视觉编码器（DeepEncoder），它必须满足几个苛刻条件：能处理高分辨率图片；处理高分图时激活度低；产生的视觉Token要少；啥分辨率都能吃；自身参数量还不能太大。市面上的开源编码器都无法满足，所以他们自己设计了DeepEncoder。它在架构：参数量：编码器约3.8亿（380M）参数，主要由 SAM-base（80M）和 CLIP-large（300M）拼接而成。解码器：采用30亿（3B）参数的MoE（混合专家）架构，在推理时激活5.7亿（570M）参数。压缩流程：举个例子，一张的图像进来，先被切成4096个小块（patch token）。这4096个token先经过参数量少的窗口注意力（不费劲），然后被一个卷积模块嗖地一下压缩到256个token，最后再喂给参数量大的全局注意力（因为token少了，也不费劲）。这样就稳稳地控制住了计算开销。多分辨率支持：它还支持多种分辨率模式。从512x512的微小模式（产生64个token），到1024x1024的基础模式（256个token），它都能处理。甚至还有一种Gundam模式，可以同时看n张局部小图和1张全局大图，专门对付那些超高分辨率的变态输入。喂什么，怎么炼？为了训好这个模型，团队准备了复杂多样数据： OCR 1.0 (基础款)：3000万页覆盖近100种语言的PDF，300万份Word文档（学公式和表格），2000万张自然场景图。 OCR 2.0 (进阶款)：1000万张图表（学着把图转成HTML表格）、500万个化学公式、100万张平面几何图。通用视觉数据 (开阔视野)：占总数据20%，用来保留模型的通用看图能力。纯文本数据 (学好说话)：占10%，确保模型的语言能力不掉队。训练流程很简单，就两步走： ...

Andrej Karpathy最新2h30min访谈：信息密度极高！关于智能体，大模型缺陷，强化学习，AGI等等的深度思考

强化学习其实很糟糕。但它之所以大行其道，仅仅是因为我们以前拥有的一切，都比它差得多。我本人其实非常乐观，我相信这事能成，问题终将解决。我之所以听起来悲观，只是因为当我看我的推特时间线时，上面充斥着太多在我看来毫无意义的东西。老实说，我认为其中很多噪音都只是为了筹集资金。我们实际上不是在构建动物。我们是在构建幽灵——一种空灵的精神实体。它们完全是数字化的，它们在模仿人类。这是一种截然不同的智能。这只是常规操作，因为我们早已身处一场持续了几十年的智能爆炸之中。一切都在逐渐被自动化，这个过程已经持续了数百年。所以，别再写博客文章了，别再做幻灯片了，别做那些务虚的事。去构建代码，整理它，让它真正工作起来。这是唯一的出路。否则，你就永远缺少关键的知识。当然，如果你有一个完美的人工智能导师，也许你可以走得非常远。但我认为，即便是今天所谓的天才们，也仅仅是触及了人类心智所能企及的表面而已。更好的阅读体验：Andrej Karpathy最新访谈：信息密度极高！关于智能体，大模型缺陷，强化学习，AGI等等的深度思考中文字幕视频版主持人：今天，我请到了 Andrej Karpathy。Andrej，你为什么说这将是智能体的十年（decade of agents），而不是智能体之年（year of agents）？ Andrej Karpathy：你刚才提到的智能体的十年这个说法，实际上是我对一个已有的引述的回应。我记得当时有些实验室——不确定具体是谁——在暗示今年将是智能体之年，特别是在LLM的发展方面。老实说，我当时被那句话刺激到了，因为它给我的感觉是行业里存在一些过度预测。在我看来，用十年来描述这个进程才更为准确。我们现在确实有了一些非常早期的智能体，它们的能力令人印象深刻，我每天都在用，比如 Claude 和 Codex。但我仍然觉得，我们还有漫长的路要走。所以我的反应是，我们很可能需要和这些东西共事十年。它们会不断进步，这当然很棒。但我主要想表达的是，我对那种过于激进的时间线持保留态度。主持人：那你认为需要十年才能完成什么？瓶颈在哪里？ Andrej Karpathy：嗯，简单来说，就是让它真正能用。在我的设想中，一个智能体应该几乎等同于你雇来一起工作的员工或实习生。你可以问问自己：你什么时候会宁愿让一个像 Claude 或 Codex 这样的智能体来做你手下员工正在做的工作？显而易见，现在它们还做不了。那还需要什么才能让它们做到？你今天为什么不用它们？你不用它们的根本原因，就是它们不好用，对吧？它们还不够智能，也不够多模态。它们虽然可以使用电脑，但你之前提到的很多任务它们都无法完成。它们没有持续学习能力——你不能只是告诉它们一件事，然后期望它们能记住。它们在认知上存在缺陷。总而言之，就是不好用。我只是直觉地认为，要解决所有这些问题，大约需要十年时间。主持人：这很有意思。作为一个专业的播客主持人和一个从远处观察 AI 的人，对我来说，识别出哦，这里缺少了什么是比较容易的，比如缺少持续学习能力，或者缺少多模态能力。但我真的不知道该如何预测解决这些问题的时间线。比如，如果有人问我，实现持续学习需要多长时间？我没有任何先验知识来判断这究竟是一个五年、十年还是五十年的项目。所以，为什么是十年？为什么不是一年或者三年？ Andrej Karpathy：我猜这主要凭我自己的直觉，以及基于我在这个领域的经验所做的推断，对吧？我从事 AI 行业大概有…快二十年了？也许没那么长，大概15年左右。你之前请来的 Richard Sutton，他在这个领域的时间当然比我长得多。但我确实有大约15年的经验，我见证过人们做出各种预测，也看到了它们最终的结果。我既在学术界待过，也在产业界工作过。所以，我猜我从这些经历中形成了一种普遍的直觉。我的感觉是：这些问题是可以解决的，也是可以克服的。但它们仍然非常困难。如果让我取个平均值，对我来说，感觉就像需要十年。大概就是这样。主持人：这真的很有趣。我不仅想了解历史，更想知道在那些不同的突破性时刻，身处现场的人们感觉即将发生什么。在哪些方面，他们的感觉被证明是过于悲观或过于乐观的？也许我们可以一个一个地来回顾一下？ Andrej Karpathy：这确实是个大问题，因为你谈论的是15年间发生的所有事。我的意思是，AI 这个领域实际上非常奇妙，因为它经历了很多次我称之为地震级的转变——突然之间，整个领域看起来就完全不一样了。我猜我可能亲身经历过两三次这样的转变，而且我仍然认为未来还会有更多，因为它们似乎以一种令人惊讶的规律性在出现。我职业生涯的开端，或者说我刚开始对深度学习产生兴趣时，很巧，我当时在多伦多大学，就在 Jeff Hinton 旁边。Hinton 教授，当然，就像是 AI 领域的教父级人物。他当时就在训练各种神经网络，我觉得这太不可思议了，也太有趣了。但需要强调的是，这在当时远非 AI 领域的主流。它最初只是一个旁支学科。我想，第一次戏剧性的地震，就是伴随着 AlexNet 的出现而发生的。AlexNet 重新定位了所有人，每个人都开始转向训练神经网络。但那时候，研究仍然是高度针对特定任务的。比如，我训练一个图像分类器，或者一个神经机器翻译器，彼此独立。在那之后，人们开始非常缓慢地对智能体产生兴趣。大家开始思考：好吧，我们可能在视觉皮层旁边打了个勾，但大脑的其他部分呢？我们如何才能构建一个真正的、完整的智能体，一个能够真正在世界中互动的实体？我会说，2013年左右的 Atari 深度强化学习浪潮，就是早期智能体探索的一部分。它试图让智能体不仅能感知世界，还能采取行动、互动并从环境中获得奖励。当时的环境就是雅达利游戏，对吧？ ...

大模型界的Karpathy地震｜Andrej Karpathy访谈后记

Andrej Karpathy 又重看了一遍自己的访谈，并澄清和深化一些关键观点。Karpathy引用了不少之前写的帖，在本文用【】表示。更好的阅读体验，求求：大模型界的Karpathy地震｜Andrej Karpathy访谈后记 1. AGI 时间线关于这方面的评论似乎是早期反响中最火的。我提到这是智能体的十年，是引用了我之前的这条推文： 2025.1.24 OpenAI发布Operator，Karpathy评论【像OpenAI的 Operator 这样的项目，对数字世界意味着什么？它就像人形机器人对物理世界一样。它们两者都试图在一个通用设定下工作——人形机器人用的是人体，而Operator用的是显示器、键盘和鼠标。它们都通过最初为人类设计的输入/输出接口，去逐步学习执行各种通用任务。这两种情况，都会把我们带向一个人机混合自治的世界。在这个世界里，人类成了高级主管，负责监督底层的自动化工作。这有点像司机监控着特斯拉的自动驾驶系统一样。这种变革在数字世界会比在物理世界快得多。为什么？因为在数字世界里处理信息的成本，大概比在物理世界里制造实物要便宜1000倍。尽管如此，物理世界的市场规模和机会感觉上要大得多。事实上，我们在OpenAI创业初期就捣鼓过这个想法（可以参考我们当年的 Universe 和 World of Bits 项目），但可惜顺序搞错了——我们得先等到大语言模型出现才行。即使是现在，我也不敢100%肯定时机已经成熟。你看，多模态能力（也就是处理图像、视频、音频）在过去一两年才勉强跟大语言模型整合到一起，而且很多时候还只是作为适配器硬栓上去的。更糟糕的是，我们还没真正涉足过超长任务周期的领域。举个例子，视频包含的信息量是极其庞大的。我可不确定我们是否能指望把这些信息一股脑儿全塞进上下文窗口（这是目前的主流范式），然后它就能奇迹般地搞定一切。我猜，这个地方至少还需要一两个重大突破。我在社交媒体上看到有人说 2025 年是智能体之年。我个人倒觉得，2025年到2035年，这整整十年，是智能体的十年。我感觉，要让它真正落地，我们还有铺天盖地的工作要做。但它应该能成。今天，Operator 也许有时候能帮你上 DoorDash 订个午餐，或者查查酒店什么的。而到了明天，你将能孵化出 Operator 组织，让它们为你执行你选择的长期任务（例如，运营一整家公司）。你会像个CEO，同时监控着 10 个这样的智能体员工，也许偶尔需要亲临一线去解决某个卡壳的问题。到那时，事情就会变得非常有趣了。】简单来说，我对 AI 时间线的看法，比你在旧金山 AI 派对上或推上听到的普遍预测要悲观 5 到 10 倍，但比起那些日益增长的 AI 否定者和怀疑论者，我又要乐观得多。这其中的矛盾其实并不存在：在我看来，我们是同时 1) 见证了近年来大语言模型的巨大进步，并且 2) 距离我们能真正拥有一个在任何工作上都比人类更值得雇佣的实体，也还有海量的工作要做。这些工作包括：脏活累活、集成工作、连接物理世界的传感器和执行器、社会层面的工作，以及安全和安保工作，当然还有很多研究有待完成。总的来说，我认为 10 年实现 AGI 已经是一个非常激进的时间表了，只是在当今的炒作氛围下，大家才不这么觉得。 2. 动物 vs. 幽灵这是我之前关于 Sutton 播客的读后感：【suton读后感】我一直很怀疑，是否存在一种单一的、简单的算法，你只要把它扔到世界上，它就能从零开始学会一切。如果真有人造出了这种东西，那我就是错的，而那也将是 AI 领域最不可思议的突破。在我看来，动物根本不是这种模式的例子——它们通过进化，被预装了大量的智能，它们后续做的学习总体上是相当微小的（例如：刚出生的斑马）。戴上我们工程师的帽子来看，我们不可能去复现整个进化过程。但通过 LLM，我们偶然发现了一种替代方法来预装海量智能——不是靠进化，而是靠在互联网上预测下一个token。这种方法催生了智能空间中一种截然不同的实体。它不同于动物，更像是幽灵或灵魂。但是，我们能够让它们随着时间推移变得更像动物，从某些方面说，这正是许多前沿工作的意义所在。 ...

想从零开始，复刻一个你自己的 ChatGPT 吗？Andrej Karpathy 的 nanochat 项目来了！

AI 大神 Andrej Karpathy 再度带来惊喜，发布了名为 nanochat 的全新项目。他将其描述为自己写过的最放飞自我的代码库，它将作为其备受期待的 LLM 课程的一部分。 nanochat 的核心理念是极简与一站式。它将训练一个类 ChatGPT 模型所需的全流程——从数据处理、预训练、对齐微调，到最终的推理部署与 WebUI——整合在了一个仅有 8300 行的清晰代码库中。整个过程被设计得极其简单：你只需一台云端 GPU 服务器，运行一个脚本，最快在 4 小时内，就能与你亲手训练出的 AI 模型在专属的网页上进行对话。这个 AI 全家桶包含哪些核心组件？ Karpathy 为你打包了构建 ChatGPT 的完整工作流：高效分词器 (Tokenizer): 使用 Rust 语言从零开始实现，保证高性能。模型预训练 (Pre-training): 在经典的 FineWeb 数据集上进行，并提供 CORE 等多维度评估指标。对齐微调 (Fine-tuning): 教授模型如何像 AI 助手一样对话、完成选择题，甚至学习使用计算器等外部工具。评测基准覆盖常识推理 (ARC)、知识问答 (MMLU)、数学 (GSM8K) 和代码生成 (HumanEval)。强化学习 (RL): (可选) 可在 GSM8K 数学任务上，使用 GRPO 算法进行强化学习，进一步提升模型能力。推理与部署 (Inference & Deployment): 提供一个包含 KV cache 优化的高效推理引擎，支持命令行 (CLI) 和一个精致的 ChatGPT 风格 WebUI 进行交互，并内置了用于工具调用的轻量级 Python 沙箱。 ...

Andrej Karpathy谈：我们真的读懂了“苦涩的教训”吗？

Andrej Karpathy谈到强化学习之父Richard Sutton参与的一期播客，内容实在发人深省，甚至有些颠覆认知。 Sutton写过一篇名为《苦涩的教训》(The Bitter Lesson) 的经典文章，这篇文章在当今大语言模型（LLM）的圈子里，几乎被奉为金科玉律。研究者们在日常讨论中，常常会衡量一种方法或理念是否足够遵循“苦涩教训”——即该方法，它能不能简单粗暴地随着算力的增加而持续变强？这背后的潜台词是：大语言模型，就是“苦涩的教训”最完美的代言人。你看那漂亮的scaling laws曲线，只要给够计算资源，模型性能就能一路攀升，简单又强大。有趣的是，《苦涩的教训》的作者Sutton本人，却对LLM这个“模范生”的资格提出了质疑。 Sutton指出，LLM的训练数据，本质上全部来自人类，不仅是人类创造的，总量也终将有尽头。当数据被“喂”完时怎么办？模型又该如何摆脱数据中根深蒂固的人类偏见？于是，那些将“苦涩教训”奉为圭臬的 LLM 研究者们，就这样被原则的提出者本人泼了一盆冷水首发于：Andrej Karpathy谈：我们真的读懂了“苦涩的教训”吗？ Sutton的理想：造“松鼠”，而非“幽灵” 播客里主持人和Sutton的对话，颇有些“鸡同鸭讲”。因为Sutton脑海中的智能，与今天LLM的构建逻辑，几乎背道而驰。 Sutton自称“古典主义者”，他推崇的是图灵最初的设想——建造一台“孩童机器” (child machine)。这种机器不需要吞下半个互联网进行预训练，而是像个真正的孩子一样，通过与真实世界的互动，从自己的亲身经历中学习。在Sutton的理想国里，不存在模仿海量内容的“预训练”阶段，更没有所谓的“监督式微调”。他指出，监督微调这种手把手教的机制在动物界根本不存在（确实如此：动物或许会观察模仿，但绝不会被同类“远程操控”着完成每一个动作）。更重要的是，有人认为预训练只是给模型灌输一些“先验知识”，好让它在后续的强化学习中能有个不错的起点。但在Sutton看来，这条路从一开始就被人类的偏见“污染”了，已经走歪了。这就像当年的AlphaZero（从零开始，不学人类棋谱）最终战胜了AlphaGo（从人类棋谱起步）一样。在Sutton的世界观里，智能的唯一正途，就是通过强化学习与世界互动。驱动这种互动的，一部分是环境的奖励，但更重要的，是源于“乐趣”、“好奇心”这类内在动机。而且，智能体应该时时刻刻都在学习，而不是“一次训练，永久部署”。 Sutton更关心人类与动物王国的共通之处。他有句名言：“如果我们能真正理解一只松鼠，人工智能的难题就差不多解决了。” Karpathy思考：预训练，是这个时代简陋版的“进化” Sutton是一位极具启发性的学者。人工智能领域依然保留着思想的多样性（或称“思想的熵”），而非所有人都一窝蜂地涌向局部最优解。人工智能的发展史经历了太多次主流范式的剧烈更迭，我们不能丢掉这种开放性。同时，Karpathy认为他对于 LLM 不符合“苦涩的教训”原则的批评不无道理。当今的前沿 LLM 是高度复杂的产物，其每一个环节都深深烙上了人类的印记：它的基础（预训练数据）是人类的文本，它的微调数据由人类筛选和标注，它的强化学习环境也由人类工程师精心调配。我们确实没能拿出一个纯粹的、只要“开机运行”，就能在真实世界中，从经验中自主学习的算法。但问题是，这样的算法真的存在吗？人们总爱举两个例子。第一个是AlphaZero。但围棋终究是个规则明确的封闭游戏，本质上只是一个更复杂的“井字棋”，很难将它的成功直接复制到包罗万象的现实世界。第二个例子就是松鼠这样的动物。对此我同样持保留态度。动物的大脑在出生时，远非一张白纸。我们眼中的许多“学习”，或许只是生物性的“成熟”。更关键的是，动物的学习是在一个极其强大的先天基础上进行的“微调”。想想看，一头新生的小斑马，几十分钟内就能在危机四伏的草原上奔跑，并紧紧跟住母亲。这是一项何其复杂的感觉-运动协调任务！你相信这是它从零开始，在一块白板上凭空学会的吗？绝无可能。动物大脑那数十亿神经元的初始状态，早已被写在DNA里，那是生命通过亿万年“进化”这个残酷的外循环，优化出来的结果。如果小斑马出生时像个未经训练的模型一样只会随机抽搐，它一分钟也活不下去。同理，今天我们拥有了含数十亿参数的神经网络，要初始化这些参数，同样需要极其丰富、高信息密度的信号。我们不可能在计算机里重演一遍生物进化史，但我们幸运地拥有了海量的互联网文本。这种基于监督学习的预训练，在动物世界里闻所未闻。但它却是我们目前能为这数十亿参数找到足够多约束的唯一可行方式。预训练，就是我们这个时代简陋版的“进化”。它是我们解决模型“冷启动”问题的笨办法，然后再结合强化学习等更“正确”的范式进行微调。召唤“幽灵”，而非创造“动物” 尽管如此，我依然坚信应该从动物身上汲取灵感。动物智能中蕴含着许多强大的算法思想，是当前LLM所缺失的。但我们也要坦诚，今天前沿的LLM研究，其目标并非创造“动物”般的智能，而是在“召唤幽灵”。你可以将这种“幽灵”视为智能空间中一种截然不同的存在。它们被人类的知识所浸染，被人类的工程技术所塑造，像是人类所有知识的不完美复制品，是对人类文明的一次大规模统计学“蒸馏”。它们并非“苦涩的教训”的完美化身，但与此前的人工智能相比，它们在“实践”层面已经无比接近那个理想。或许，随着时间推移，我们可以将这些“幽灵”朝“动物”的方向不断引导，这并非两条不可逾越的道路，只是起点不同。但同样很有可能，它们会与动物智能的路径渐行渐远，最终成为一种永久性的、非动物形态的智能——虽然怪异，但却对人类极其有用，甚至足以改变世界。或许，“幽灵”之于“动物”，正如“飞机”之于“鸟类”。 Sutton的这期播客，是为所有LLM研究者敲响的一记警钟。它提醒我们，不要在利用现有成果的道路上冲得太猛，而忘记了抬头看路。或许我们还未领会“苦涩的教训”的全部精髓，在现有模式之外，还有更强大的范式等待探索，而不是一味地埋头于“刷榜”。动物世界就是灵感的重要来源——内在动机、乐趣、好奇心、多智能体博弈……这些都值得我们发挥想象力去探索。

综述！大模型方向Ask Me Anything汇总(2)

本帖为小红书大模型方向Ask Me Anything Part2 收录了丁霄汉、郑楚杰、陈雄辉、田飞、方佳瑞、刘圳、flood sung、陈恺、林江浩研究员/老师的精彩QA。关于大模型工业界，学术界的一些讨论。首发于：综述！大模型方向Ask Me Anything汇总(2)【求关注】丁霄汉添加图片注释，不超过 140 字（可选）最现实角度给【硕士博士生】的建议都大实话。主要适用于AI领域。不要给导师带礼物。你好好干活或者能发论文比什么都强。你给你导师带个土特产他都不知道该往哪扔，让别的老师看见他也怕说闲话，带给他的烦恼可能大于快乐。这点钱哪有你实实在在的产出带给他的利益大？不要瞧不起参加选调的。有些人会跟导师谈好，我给你扎扎实实打工三五年，你放我毕业，我直接去选调，不再做任何学术，不辱没师门了。如果你搞学术搞不动了也可以考虑这个路子。在学术上不要对自己要求过高，水一两篇没什么，不要期望自己第一篇就是高影响力。经常有人问“应该灌水还是闷头搞代表作”，其实这两件事完全不是互斥的关系。没发过一两篇论文，没经过完整科研训练的人憋两三年憋出个高影响力工作这种剧情是比较罕见的。体验完整的科研流程，逐渐提升科研水平，达到或接近毕业要求是最要紧的，不然随着时间流逝心态的变化会让你越来越难以做出好的工作。我们反对的是无底线灌水、没有进步的灌水、与自身发展阶段不符的灌水（比如某个做模型压缩的俄语赛区资深老哥发了篇文章比他自己七年前的论文在同一个模型上进步了0.1%）。90%的人放手漫灌也灌不到论文数量边际效用小于零的那个程度，你入学时候就担心这个，给人感受到一种“我不要练成施瓦辛格那种肌肉太可怕了”的美。在要求比较高的学术人眼里，假设你有10篇水文和2篇高影响力文章的话，那10篇文章就当个背景板，基本上不会怎么留意，谈不上加分也谈不上扣分的。你只要别狂灌20篇AI for钙钛矿石墨烯地震预测之类的就好。牛顿和爱因斯坦这种人是真没灌过水，咱还是别以他们自比了。在2021年，“我发了几篇A，企业就会铺上红毯欢迎我入职来技术扶贫”和“我找个部门发论文，这个部门的考核标准就是论文，我可以自由自在的带薪发文，发了两年赚了一大笔钱回高校还赶得上拿青基继续卷教职”这种想法还是可以的，现在不建议继续保持这样的期望。 Q: 怎么优雅地和别人在线技术吵架，吵个三四十分钟而不落下风？我发现我表达能力有限，很难一下子组织出语言捍卫自己技术的逻辑，该怎么提升？ A: 去reddit评论别人的论文没有novelty，然后你将收获高质量吵架练习 Q: 想问问丁博，顶尖大厂现在秋招选拔的标准是什么？认识一个清华电子博师兄，llm方向，ml三大顶会各一篇，字节人才计划简历都没过。而我的同组师兄做世界模型的，发表可能相对不多，但字节人才计划已经在等谈薪了，同组师兄的说法是你科研方向的match程度和你真正参与或者主导的项目是否有含金量在找工作时候的参考价值远大于paper数量。想问问丁博的看法 A: 标准就是合不合格看是否match，顶尖不顶尖看影响力，以前那种数A发offer的行情已经不存在了。比如说你是类似vLLM这种级别的项目的核心开发者，一篇论文没有也无所谓的。 Q: 求问丁神第四个思想在现在这个时代的弊端是什么 A: 1.这样的岗位少而且竞争压力极大。2.学校也不是特别看重论文了，想从企业招人脉强能拉项目能做好组织管理的，如果你在企业只发论文的话反而在学校真感兴趣的点上落后了。3.学术圈不是一个只看实力的地方，你在企业干几年，既浪费了拜码头的宝贵时间又降低了自己的时间价值，搞不好连青基都拿不到 Q: 求问丁博第四条，2025年的认知应该变更为什么呢 A: 国内学术圈最好的路子还是先找好大树通过大树的路子走海优回来，一定要不出国的话要么博士期间就有大树，要么通过博后去拜码头 Q: 想问一下，丁博是否认为 llm 存在泡沫现象，现在大厂招 llm 开的价非常高，但是 llm 本身给企业带来的收益有限，不像搜广推那么直接。所以 llm 高薪的情况还能持续多久？ A: 对跟风搞llm的一些组织来说可能真的是泡沫了，但对真有决心把llm搞好，all in ai的公司来说应该说是刚开始郑楚杰添加图片注释，不超过 140 字（可选） Q: 想请教一下，现在工业界对rl作用的更普遍的认知是什么？对sft能力的巩固、加快搜索，generalization，还是搜索新的路径？rl真的可以提升模型的边界能力吗 A: 一个工业化的角度： RL是让算力投入产生进一步收益的手段 Q: 请教一下VL模型，Qwen3VL对比2.5的架构改进看起来都是针对视频，那Qwen3VL的图片识别和理解能力是怎么提升的呢 A: 数据吧 Q: 你们新模型用的gspo还是grpo A: 2507开始全部gspo ...

综述！大模型方向Ask Me Anything汇总

本帖为小红书大模型方向Ask Me Anything Part1 收录了刘知远、邱锡鹏、赵鑫、徐仲文、吴翼、刘威杨、张奇、林绍辉、林洲汉、张文涛老师的精彩QA。关于大模型，学术界，工业界的一些讨论。更好的阅读体验：https://mp.weixin.qq.com/s/LjbccYPKFQkfBy2BsmimIg 持续跟踪：https://wcnnafr2havv.feishu.cn/wiki/AKVqwZ5qQiwju0k5mq5cnH2MnVx?from=from_copylink 刘知远 Q：应对非升即走和无尽的考核不累吗 A：我博士时有位实习导师说过一段话让我受益。他说在大学里也许有 70%的时间在干和指导学生和科研无关的事情，但是正是因为自己喜欢跟学生一起科研，也就愿意为了这份热爱去做那些无关的“洗脏衣服”的事情。我感受，做任何有意义的热爱着的事业，并不意味着 100% 的时间都在做自己感兴趣的事，反而是愿意为了那份热爱甘愿去承担一些附带的条件。共勉。 Q: 刘老师对待大语言模型物理学的看法是什么？ A：我理解本质是研究大模型的静态或动态规律，是人工智能科学理论的重要问题。 Q：刘老师您好，有幸在面壁实习的时候跟您有一面之缘，现在毕业工作了有想继续读博的想法，请问目前llm是否有跟传统行业或者新能源领域结合的方向 A：感谢！LLM 预计可以在知识密集型行业发挥作用，着重是将专业知识武装到 LLM 上，你可以从这角度考虑。 Q：研发的时候，AI模型下一个版本的核心迭代能力，具体能做到什么水平（目标），可以事先被定义吗？ A：一般会通过经验性的模型风洞实验提前大致判断出来。 Q:老师，请问社会模拟怎么做才不像是在玩游戏一样?从什么角度来验证模型的有效性啊，开题答辩真的被老师打击的没有信心了 A: 社会模拟的意义在于预测和干预，需要实用。 Q: 刘老师，您觉得未来在学界，特别是国内高校，大模型方向有哪些topic是值得做且做得来的嘛？ A: 人工智能的基础理论还很薄弱，例如知识表示理论、动力学理论等。 Q: 老师觉得llm稀疏和压缩目前还值得深入研究吗 A: 当然，这是模型架构创新的前沿方向。 Q: 请问刘老师，大模型到底有没有自我意识 A: 没有。 Q：刘教授您认为大模型这波红利会持续多久 A：按照国家行动计划要到 2035 年。 Q: 老师怎么看 llm 可解释性的下一步方向 A: 可解释性是很重要的话题，感觉关键问题是如何定义“可解释”，这是一个目前看仍然主观性很强的概念。 Q: 刘老师，请问您怎么看llm机制可解释性的工作？您的组有进行这方面的研究吗？ A: 可解释性的定义是难题。 Q: 刘老师觉得大模型方向实习，小厂有必要去吗 A: 关键看团队，历史上的成绩。 Q: 老师，请问具身智能这个方向如何? A: 是 AI 进入物理世界的必由之路。 Q: 目前各类 computer use、GUI Agent 在实际使用中都还比较 demo，刘老师认为当前制约模型像人（甚至超越人）一样有效使用电脑、手机的关键要素有哪些 ...

强化学习之父Sutton最新访谈：大模型的路线走错了？

在人工智能的探索之路上，大语言模型是否已走入绝境？强化学习之父、2024年图灵奖得主 Richard Sutton 的答案是肯定的。他驳斥了大语言模型（LLM）能够真正学习或拥有世界模型的假设，并提出，真正的智能并非模仿人类知识，而是由在现实世界中行动的目标所驱动，通过直接经验即时学习。核心观点强化学习（RL）旨在通过直接经验理解世界，而大语言模型（LLM）则模仿人类的言谈。前者旨在探寻如何行动，后者则预测人们会说什么。 LLM 本身并不具备世界模型，它们只是在模仿那些拥有世界模型的实体——人类。一个真正的世界模型应当能够预测世界将如何变化，而不仅仅是预测一个人接下来可能会说什么。智能的本质在于实现能够改变外部世界的目标。LLM 以“预测下一token”为目标，但这是一种被动的过程，因为它无法对世界产生影响，因此不能算作真正的智能目标。人工智能历史的“惨痛教训”（The Bitter Lesson）在于：依赖于原始算力和经验的通用方法，最终将超越那些依赖于嵌入人类知识的方法。从人类知识的框架出发，再试图叠加经验学习来构建人工智能的路径，在历史上屡屡失败。反而是那些从零开始、可扩展、从原始经验中学习的系统，最终脱颖而出。儿童并非天生的模仿者，他们是积极的实验者。他们通过主动尝试——挥舞手臂、发出声音——并观察后果来学习，而非被动地接受指令。作为众多人工智能系统基础的监督学习，并非一种自然过程。松鼠从不上学，它们通过试错和预测来认知世界。想要理解人类智能，更好的起点是理解动物智能。我们诸如语言之类的独特能力，不过是建立在与动物共通的基础之上“一层薄薄的华彩”。数字智能相较于生物智能，拥有一项关键优势：复制知识的能力。一个人工智能体的全部学习成果，都可以被完整复制，作为新智能体的起点。长期目标是通过一个“价值函数”，经由短期反馈来学习的。正如在棋局中，你走出一步能提升胜率预测的棋，这种“胜率提升”的信念本身就构成了一种即时奖励，从而强化了这一步棋。世界过于庞大复杂，不可能预先将所有知识都灌输给一个智能体。真正的智能需要持续学习，将新信息融入其核心参数，而非仅仅暂存于一个临时的“上下文窗口”中。当前的人工智能算法在设计上并未内在地倾向于良好的泛化能力。当一个模型展现出色的泛化时，往往是因为人类精心设计了其数据和表示方式，从而引导它走向正确的解决方案。未来高级人工智能将面临一种新形式的网络安全挑战：知识整合的腐化风险。即便是来自可信来源的新知识，也可能像病毒一样扭曲人工智能的核心目标。与其试图掌控人工智能的命运，我们更应像抚养孩子一样对待它们。我们无法控制其一生，但可以努力为其注入良好、稳固的价值观。人工智能的历史，可以看作是“弱方法”（如搜索、学习等通用原则）对“强方法”（预先填充了特定人类知识的系统）的胜利史。简单且可扩展的原则，最终总是胜出。大语言模型所缺失的“基准真相” Richard Sutton 明确区分了强化学习（RL）与大语言模型（LLM）在人工智能领域的不同定位。他视 RL 为人工智能的基础，其核心是通过直接经验来理解世界。相比之下，他认为 LLM 的主要设计目的是模仿人类的言行，而非自主地决策行动。 “我认为强化学习是人工智能的根基。什么是智能？智能的核心问题是理解你所在的世界。强化学习正致力于此，而大语言模型则是在模仿人类的行为和言论，它们并非在探寻该做什么。” 尽管一种普遍的看法是，LLM 必须拥有强大的世界模型才能处理海量文本数据，但 Richard 对此并不认同。他认为，LLM 只是在模仿拥有世界模型的实体——人类，其自身并不真正具备世界模型。一个真正的世界模型，应该能预测世界将如何演变，而不仅仅是预测一个人接下来会说什么。Richard 援引计算机科学先驱 Alan Turing 的观点，强调人工智能的目标应是创造一台能从经验中学习的机器，而他将“经验”定义为“行动并观察其后果”。那种认为 LLM 能为未来学习提供良好“先验知识”的观点也受到了挑战。Richard 指出，一个“先验”若要有意义，必须存在一个可供参照的“基准真相”（ground truth）。但在 LLM 的框架里，这种基准真相是不存在的，因为它没有明确的目标，也没有所谓“正确”行动的概念。没有目标，也就无法判断一个行为是否正确，从而无法获得有效的反馈。 “如果你没有基准真相，就不可能拥有先验知识。因为先验知识本应是关于真相的线索或初步判断，但在（LLM 的世界里）真相并不存在，没有什么是绝对正确的言论。” 然而，强化学习却拥有一个明确的基准真相：奖励（reward）。正确的行动就是能带来奖励的行动，这为学习和评估知识提供了坚实的基础。LLM 的“下一token预测”任务，本质上是在选择自己的下一个行动（即说什么），而不是预测世界对这一行动的反应。正因如此，它无法被世界的真实反应所“触动”或“惊讶”，也无法基于这些反馈来调整自身的认知。为何“预测下一token”并非一个实质性目标在 Richard Sutton 看来，拥有目标是智能的精髓所在。他引用人工智能先驱 John McCarthy 的定义：智能是“实现目标的能力中的计算部分”。一个没有目标的系统，称不上智能，充其量只是一个行为系统。尽管 LLM 在技术上确实有一个目标——预测下一token，但 Sutton 认为这并非实质性目标。一个真正的目标必须涉及改变外部世界。预测token是一个被动接收的过程，模型本身无法影响它将要接收的token。因此，在智能的框架下，这算不上一个有意义的目标。 “预测下一token，这算不上一个目标，因为它无法改变世界。token源源不断地涌来，即便你预测了它们，也无法对它们施加任何影响……这不是一个实质性的目标。你不能因为一个系统只是坐在那里，为自己预测的准确性而沾沾自喜，就说它拥有一个目标。” ...

关于Claude Code的所有

1 Claude Code 实践，被这位小哥彻底讲透了！ 2 Anthropic：Claude Code最佳实践 3 Claude Code为啥强？那未来呢？ 4 Claude Code一战封神 AI产品经理如何炼成？ 5 Anthropic：对话Claude Code产品经理 6 一定要看，最适合0基础小白的AI编程实践！ 7 Codex能和Claude Code掰掰手腕吗？

大模型入门：彻底学会MOE

1 Dense & MOE Dense：每次激活全部参数。 MoE ：用一个轻量级的路由器，为每个输入的 Token，动态地、稀疏地选择一小部分专家来激活和计算。专家通常就是FFN。这样做的好处是什么？假设我们有64个专家，但路由器每次只选择2个。那么：参数量巨大：模型的总参数量是64个专家的总和，规模非常庞大，这让它有能力“记忆”更多的世界知识。计算量不变：在一次前向传播中，每个 Token 实际只经过了2个专家的计算。如果每个专家的大小和原始密集模型的FFN大小相仿，那么计算成本（FLOPs）就只增加了路由器的开销，几乎可以忽略不计。一句话总结：MoE 用“总参数量巨大”换取了“知识容量”，同时通过“稀疏激活”维持了极低的“计算成本”。 2 路由器如何选择专家？可以想到有很多种选择方式，但越复杂的规则训练越麻烦，因此目前主流是token选择k个专家。 3 主流top k routing方法 token采用什么方式选择k个专家？比如RL选，运筹学解，但是都太复杂，还是训练复杂的问题。这里介绍主流top k routing方法。我们以处理单个 Token t 的第 l 层 MoE 模块为例，并假设 K=2。第 1 步：输入就位 (Input) 一个 Token 经过前序模块的计算，以向量 $u_t^l$ 的形式抵达 MoE 层。这个向量是该 Token 在当前层的丰富语义表示。第 2 步：计算“亲和度”并归一化 (Affinity Scoring & Normalization) 路由器需要判断该将这个 Token $u_t^l$ 发送给哪个专家。为此，它为每个专家 i 维护一个可学习的“身份”向量 $e_i^l$。路由器通过计算输入向量 $u_t^l$ 与每一个专家身份向量 $e_i^l$ 的点积 (dot product)，来衡量它们之间的“亲和度”或“匹配度”。点积结果越大，代表该专家越适合处理这个 Token。 ...