幻觉 | 一只小茄墩

《Reflections on OpenAI》 2025年7月15日我是三周前离开 OpenAI 的，而我加入公司是在 2024 年 5 月。我想分享我的思考，是因为外界对 OpenAI 的所作所为众说纷纭、传闻不断，但却鲜有人亲口讲述在那儿工作的真实文化氛围。 Nabeel Quereshi 写过一篇很棒的文章，叫《关于 Palantir 的一些思考》，文中他详细阐述了 Palantir 的特别之处。我也想趁着记忆犹新，为 OpenAI 写下同样的文字。你在这里不会看到任何商业机密，更多的是关于这个史上最引人入胜的组织之一，在当前这个极不寻常时期的一些个人感悟。首先声明：我决定离开并非出于任何个人恩怨——实际上，这个决定曾让我内心无比纠结。从一个创业公司的创始人，转变为一个三千人大机构的员工，这个过程并不容易。眼下，我渴望的是一个全新的开始。这份工作的魅力完全有可能再次将我吸引回来。毕竟，很难想象有什么工作能比构建通用人工智能 (AGI) 更具影响力了，而大语言模型 (LLM) 无疑是这十年来的顶尖技术创新。能够亲身见证一些技术进展，并参与 Codex 项目的发布，我深感幸运。当然，这些仅为个人观察，不代表公司立场。OpenAI 是个庞大的机构，本文只是我管中窥豹，所见一斑。文化了解 OpenAI，首先要知道它的发展速度有多惊人。我刚加入时，公司才 1000 多人。一年后，员工数已超过 3000，而按司龄算，我已经排进了前 30%。几乎所有领导层当前的工作，都和他们两三年前的职责大相径庭。当然，如此迅猛的扩张之下，各种问题都会暴露出来：公司层面的沟通方式、汇报结构、产品交付流程、人员管理与组织、招聘过程等等。不同团队的文化也大相径庭：有些团队始终在全力冲刺，有些则需要时刻盯着大型计算任务，还有一些则保持着更为稳健的节奏。在 OpenAI 没有所谓的单一体验，研究、应用和市场（GTM）团队的运作周期和视角也截然不同。 OpenAI 有一个特别之处：所有事情——我是说所有事情——都在 Slack 上进行。这里没有电子邮件。我在那里的全部时间里，大概总共只收到过 10 封邮件。如果你不善于整理信息，会觉得这种工作方式极易让人分心。但如果你能精心管理自己的频道和通知，它还是相当高效的。 OpenAI 的文化是高度自下而上的，在研究领域尤其如此。我刚加入时，曾询问下一季度的路线图。得到的答复是：“我们没有那东西”（不过现在有了）。好的想法可以来自任何地方，而且事先往往很难判断哪个想法会最有成效。这里没有宏大的“总体规划”，所谓的进展，是在新研究不断结出硕果的过程中，一步步探索出来的。正是得益于这种自下而上的文化，OpenAI 也非常任人唯贤。长久以来，公司领导者的晋升，主要看他们是否能提出好想法并将其付诸实践。许多能力超群的领导者，其实并不擅长在全员大会上演讲或玩弄办公室政治。但在 OpenAI，这些能力远不如在其他公司那么重要。最终，最好的想法总能脱颖而出。这里有一种强烈的行动偏好（即“先做再说”）。不同团队（即使业务不相关）不约而同地想到一块儿去，是常有的事。我最初就参与了一个与 ChatGPT Connectors 类似的内部并行项目。在我们决定正式推出 Codex 之前，公司内部至少同时存在三到四个不同的原型。这些项目通常由少数几个人在没有申请许可的情况下自发启动。一旦项目显现出潜力，团队就会迅速围绕它们组建起来。 Andrey（Codex 项目负责人）曾对我说，你应该把每个研究员都看作是独立的“迷你 CEO”。他们有强烈的自主性，喜欢专注于自己的项目，看最终能做出什么。这里有一个推论——大部分研究课题，都是通过用一个极具吸引力的技术难题去“钓”（nerd-sniping）一个研究员来解决的。如果一件事被认为是无聊或“已解决”的，那它很可能就没人去做了。优秀的研究经理影响力巨大，同时也极其稀缺。最顶尖的经理能将许多不同研究方向的成果串联起来，整合成更大规模的模型训练。优秀的 PM（产品经理）也是如此（在此特别感谢 ae）。我合作过的 ChatGPT 团队的 EM（工程经理）们（Akshay、Rizzo、Sulman）是我见过的最沉着冷静的“客户”。你真的会觉得，他们在这个位置上已经见过了各种大风大浪。他们中的大多数人管理风格都比较放手，但他们会招募优秀的人才，并努力为这些人创造成功所需的一切条件。 ...

《Hallucination Stations On Some Basic Limitations of Transformer-Based Language Models》大语言模型（LLM）存在“幻觉”现象，即生成虚假或无意义的信息。作者从计算复杂性的新颖角度来探讨这一局限性。随着LLM越来越多地被用于构建能自主执行任务的“智能体”（Agentic AI），理解其能力边界变得至关重要。作者提出，无论是执行计算任务还是验证任务的准确性，只要任务的复杂度超过一个特定阈值，LLM就必然会失败。 LLM的计算复杂性及其影响任何计算任务的解决都无法快于其固有的计算复杂度。作者指出，LLM生成单个词元（token）的核心操作，其计算复杂度为 $O(N^{2}.d)$，其中 $N$ 是输入序列的长度，$d$ 是模型的维度。这意味着LLM处理任何任务所能执行的计算步骤有一个明确的上限。因此，如果一个任务本身所需的计算步骤从根本上就多于这个上限（例如，复杂度为 $O(n^{3})$ 或指数级的任务），那么LLM在理论上就不可能正确完成这个任务。这个论证为我们提供了一个关键的评判标准：通过比较任务的内在复杂度与LLM的计算能力上限，我们可以预判LLM在处理该任务时是否会“碰壁”，从而产生幻觉。示例1：词元组合这个例子非常直观地展示了上述理论。作者提出了一个任务：“给定一个包含n个词元的集合，列出所有长度为k的字符串”。要完成这个任务，需要进行的计算量是 $O(n^{k})$，这是一个指数级的增长。当n和k的值增大时，这个数值会轻易地超过LLM的计算能力上限 $O(N^{2}.d)$ 。LLM也许能根据提示生成一些看起来合理的序列，但它并不是在真正地执行指数级的枚举计算，而只是在根据概率预测下一个最可能的词元。这启发我们，即使LLM的回答在表面上看起来正确，它也可能没有遵循任务要求的计算逻辑，尤其是在面对需要穷举所有可能性的组合问题时，其结果很可能是不可靠的。示例2：矩阵乘法矩阵乘法是另一个经典的计算问题，其标准算法的计算复杂度是 $O(n^{3})$（或更精确地说是 $O(m \cdot n \cdot p)$）。作者指出，当矩阵的维度超过LLM的词汇量规模时，LLM将无法正确执行乘法计算。这个例子进一步巩固了核心论点，并将其扩展到更多在现实世界中常见的、具有高阶多项式复杂度的计算任务，如寻找最短路径的Floyd-Warshall算法、某些数据库操作以及计算流体力学等。这给我们的启发是，在将LLM应用于需要精确数值计算，特别是涉及大规模矩阵或网络问题的科学和工程领域时，必须极其谨慎，因为这些任务的复杂度往往超出了LLM的能力范围。示例3：智能体AI 本节将前面的讨论扩展到当前热门的智能体AI领域。智能体AI是指利用LLM自主决策和执行任务的系统，应用场景包括金融交易、预订服务乃至工业控制。作者论证说，如果一个任务本身的计算复杂度就超过了 $O(N^{2}.d)$，那么无论是直接让LLM执行，还是将其包装成一个智能体来执行，结果都是一样的：任务无法被正确完成。更有启发性的是，作者进一步探讨了用一个智能体（$A_{2}$）去验证另一个智能体（$A_{1}$）的任务结果是否可行。结论是不可行的，因为在许多情况下，验证一个解的正确性（尤其是最优解）需要同等甚至更高的计算复杂度。例如，验证一个旅行商问题（TSP）的解是否为最短路径，需要对比所有可能的路径，这是一个阶乘级别的计算量（$\frac{(n-1)!}{2}$），远远超过LLM的能力。这警示我们，试图构建一个“监督者”LLM来检查“工作者”LLM的复杂计算结果，这条路在理论上是走不通的，我们不能依赖LLM来自我纠错或相互验证。定理1及其证明给定一个长度为N的提示，其中包含一个计算复杂度为 $O(n^{3})$ 或更高的任务（其中$n...

幻觉

关于 OpenAI 的一些思考 -- Calvin French-Owen

斯坦福最新研究：AI幻觉不是玄学，是算力有上限！