关于 OpenAI 的一些思考 -- Calvin French-Owen

《Reflections on OpenAI》 2025年7月15日 我是三周前离开 OpenAI 的,而我加入公司是在 2024 年 5 月。 我想分享我的思考,是因为外界对 OpenAI 的所作所为众说纷纭、传闻不断,但却鲜有人亲口讲述在那儿工作的真实文化氛围。 Nabeel Quereshi 写过一篇很棒的文章,叫《关于 Palantir 的一些思考》,文中他详细阐述了 Palantir 的特别之处。我也想趁着记忆犹新,为 OpenAI 写下同样的文字。你在这里不会看到任何商业机密,更多的是关于这个史上最引人入胜的组织之一,在当前这个极不寻常时期的一些个人感悟。 首先声明:我决定离开并非出于任何个人恩怨——实际上,这个决定曾让我内心无比纠结。从一个创业公司的创始人,转变为一个三千人大机构的员工,这个过程并不容易。眼下,我渴望的是一个全新的开始。 这份工作的魅力完全有可能再次将我吸引回来。毕竟,很难想象有什么工作能比构建通用人工智能 (AGI) 更具影响力了,而大语言模型 (LLM) 无疑是这十年来的顶尖技术创新。能够亲身见证一些技术进展,并参与 Codex 项目的发布,我深感幸运。 当然,这些仅为个人观察,不代表公司立场。OpenAI 是个庞大的机构,本文只是我管中窥豹,所见一斑。 文化 了解 OpenAI,首先要知道它的发展速度有多惊人。我刚加入时,公司才 1000 多人。一年后,员工数已超过 3000,而按司龄算,我已经排进了前 30%。几乎所有领导层当前的工作,都和他们两三年前的职责大相径庭。 当然,如此迅猛的扩张之下,各种问题都会暴露出来:公司层面的沟通方式、汇报结构、产品交付流程、人员管理与组织、招聘过程等等。不同团队的文化也大相径庭:有些团队始终在全力冲刺,有些则需要时刻盯着大型计算任务,还有一些则保持着更为稳健的节奏。在 OpenAI 没有所谓的单一体验,研究、应用和市场(GTM)团队的运作周期和视角也截然不同。 OpenAI 有一个特别之处:所有事情——我是说所有事情——都在 Slack 上进行。这里没有电子邮件。我在那里的全部时间里,大概总共只收到过 10 封邮件。如果你不善于整理信息,会觉得这种工作方式极易让人分心。但如果你能精心管理自己的频道和通知,它还是相当高效的。 OpenAI 的文化是高度自下而上的,在研究领域尤其如此。我刚加入时,曾询问下一季度的路线图。得到的答复是:“我们没有那东西”(不过现在有了)。好的想法可以来自任何地方,而且事先往往很难判断哪个想法会最有成效。这里没有宏大的“总体规划”,所谓的进展,是在新研究不断结出硕果的过程中,一步步探索出来的。 正是得益于这种自下而上的文化,OpenAI 也非常任人唯贤。长久以来,公司领导者的晋升,主要看他们是否能提出好想法并将其付诸实践。许多能力超群的领导者,其实并不擅长在全员大会上演讲或玩弄办公室政治。但在 OpenAI,这些能力远不如在其他公司那么重要。最终,最好的想法总能脱颖而出。 这里有一种强烈的行动偏好(即“先做再说”)。不同团队(即使业务不相关)不约而同地想到一块儿去,是常有的事。我最初就参与了一个与 ChatGPT Connectors 类似的内部并行项目。在我们决定正式推出 Codex 之前,公司内部至少同时存在三到四个不同的原型。这些项目通常由少数几个人在没有申请许可的情况下自发启动。一旦项目显现出潜力,团队就会迅速围绕它们组建起来。 Andrey(Codex 项目负责人)曾对我说,你应该把每个研究员都看作是独立的“迷你 CEO”。他们有强烈的自主性,喜欢专注于自己的项目,看最终能做出什么。这里有一个推论——大部分研究课题,都是通过用一个极具吸引力的技术难题去“钓”(nerd-sniping)一个研究员来解决的。如果一件事被认为是无聊或“已解决”的,那它很可能就没人去做了。 优秀的研究经理影响力巨大,同时也极其稀缺。最顶尖的经理能将许多不同研究方向的成果串联起来,整合成更大规模的模型训练。优秀的 PM(产品经理)也是如此(在此特别感谢 ae)。 我合作过的 ChatGPT 团队的 EM(工程经理)们(Akshay、Rizzo、Sulman)是我见过的最沉着冷静的“客户”。你真的会觉得,他们在这个位置上已经见过了各种大风大浪。他们中的大多数人管理风格都比较放手,但他们会招募优秀的人才,并努力为这些人创造成功所需的一切条件。 ...

July 16, 2025 · 小茄墩

斯坦福最新研究:AI幻觉不是玄学,是算力有上限!

《Hallucination Stations On Some Basic Limitations of Transformer-Based Language Models》 大语言模型(LLM)存在“幻觉”现象,即生成虚假或无意义的信息。作者从计算复杂性的新颖角度来探讨这一局限性 。随着LLM越来越多地被用于构建能自主执行任务的“智能体”(Agentic AI),理解其能力边界变得至关重要。作者提出,无论是执行计算任务还是验证任务的准确性,只要任务的复杂度超过一个特定阈值,LLM就必然会失败。 LLM的计算复杂性及其影响 任何计算任务的解决都无法快于其固有的计算复杂度。作者指出,LLM生成单个词元(token)的核心操作,其计算复杂度为 $O(N^{2}.d)$,其中 $N$ 是输入序列的长度,$d$ 是模型的维度。这意味着LLM处理任何任务所能执行的计算步骤有一个明确的上限。因此,如果一个任务本身所需的计算步骤从根本上就多于这个上限(例如,复杂度为 $O(n^{3})$ 或指数级的任务),那么LLM在理论上就不可能正确完成这个任务。这个论证为我们提供了一个关键的评判标准:通过比较任务的内在复杂度与LLM的计算能力上限,我们可以预判LLM在处理该任务时是否会“碰壁”,从而产生幻觉。 示例1:词元组合 这个例子非常直观地展示了上述理论。作者提出了一个任务:“给定一个包含n个词元的集合,列出所有长度为k的字符串”。要完成这个任务,需要进行的计算量是 $O(n^{k})$,这是一个指数级的增长。当n和k的值增大时,这个数值会轻易地超过LLM的计算能力上限 $O(N^{2}.d)$ 。LLM也许能根据提示生成一些看起来合理的序列,但它并不是在真正地执行指数级的枚举计算,而只是在根据概率预测下一个最可能的词元。这启发我们,即使LLM的回答在表面上看起来正确,它也可能没有遵循任务要求的计算逻辑,尤其是在面对需要穷举所有可能性的组合问题时,其结果很可能是不可靠的。 示例2:矩阵乘法 矩阵乘法是另一个经典的计算问题,其标准算法的计算复杂度是 $O(n^{3})$(或更精确地说是 $O(m \cdot n \cdot p)$)。作者指出,当矩阵的维度超过LLM的词汇量规模时,LLM将无法正确执行乘法计算。这个例子进一步巩固了核心论点,并将其扩展到更多在现实世界中常见的、具有高阶多项式复杂度的计算任务,如寻找最短路径的Floyd-Warshall算法、某些数据库操作以及计算流体力学等。这给我们的启发是,在将LLM应用于需要精确数值计算,特别是涉及大规模矩阵或网络问题的科学和工程领域时,必须极其谨慎,因为这些任务的复杂度往往超出了LLM的能力范围。 示例3:智能体AI 本节将前面的讨论扩展到当前热门的智能体AI领域。智能体AI是指利用LLM自主决策和执行任务的系统,应用场景包括金融交易、预订服务乃至工业控制。作者论证说,如果一个任务本身的计算复杂度就超过了 $O(N^{2}.d)$,那么无论是直接让LLM执行,还是将其包装成一个智能体来执行,结果都是一样的:任务无法被正确完成。更有启发性的是,作者进一步探讨了用一个智能体($A_{2}$)去验证另一个智能体($A_{1}$)的任务结果是否可行。结论是不可行的,因为在许多情况下,验证一个解的正确性(尤其是最优解)需要同等甚至更高的计算复杂度 。例如,验证一个旅行商问题(TSP)的解是否为最短路径,需要对比所有可能的路径,这是一个阶乘级别的计算量($\frac{(n-1)!}{2}$),远远超过LLM的能力。这警示我们,试图构建一个“监督者”LLM来检查“工作者”LLM的复杂计算结果,这条路在理论上是走不通的,我们不能依赖LLM来自我纠错或相互验证。 定理1及其证明 给定一个长度为N的提示,其中包含一个计算复杂度为 $O(n^{3})$ 或更高的任务(其中$n...

July 16, 2025 · 小茄墩