关于 OpenAI 的一些思考 -- Calvin French-Owen

《Reflections on OpenAI》

2025年7月15日

我是三周前离开 OpenAI 的，而我加入公司是在 2024 年 5 月。

我想分享我的思考，是因为外界对 OpenAI 的所作所为众说纷纭、传闻不断，但却鲜有人亲口讲述在那儿工作的真实文化氛围。

Nabeel Quereshi 写过一篇很棒的文章，叫《关于 Palantir 的一些思考》，文中他详细阐述了 Palantir 的特别之处。我也想趁着记忆犹新，为 OpenAI 写下同样的文字。你在这里不会看到任何商业机密，更多的是关于这个史上最引人入胜的组织之一，在当前这个极不寻常时期的一些个人感悟。

首先声明：我决定离开并非出于任何个人恩怨——实际上，这个决定曾让我内心无比纠结。从一个创业公司的创始人，转变为一个三千人大机构的员工，这个过程并不容易。眼下，我渴望的是一个全新的开始。

这份工作的魅力完全有可能再次将我吸引回来。毕竟，很难想象有什么工作能比构建通用人工智能 (AGI) 更具影响力了，而大语言模型 (LLM) 无疑是这十年来的顶尖技术创新。能够亲身见证一些技术进展，并参与 Codex 项目的发布，我深感幸运。

当然，这些仅为个人观察，不代表公司立场。OpenAI 是个庞大的机构，本文只是我管中窥豹，所见一斑。

文化

了解 OpenAI，首先要知道它的发展速度有多惊人。我刚加入时，公司才 1000 多人。一年后，员工数已超过 3000，而按司龄算，我已经排进了前 30%。几乎所有领导层当前的工作，都和他们两三年前的职责大相径庭。

当然，如此迅猛的扩张之下，各种问题都会暴露出来：公司层面的沟通方式、汇报结构、产品交付流程、人员管理与组织、招聘过程等等。不同团队的文化也大相径庭：有些团队始终在全力冲刺，有些则需要时刻盯着大型计算任务，还有一些则保持着更为稳健的节奏。在 OpenAI 没有所谓的单一体验，研究、应用和市场（GTM）团队的运作周期和视角也截然不同。

OpenAI 有一个特别之处：所有事情——我是说所有事情——都在 Slack 上进行。这里没有电子邮件。我在那里的全部时间里，大概总共只收到过 10 封邮件。如果你不善于整理信息，会觉得这种工作方式极易让人分心。但如果你能精心管理自己的频道和通知，它还是相当高效的。

OpenAI 的文化是高度自下而上的，在研究领域尤其如此。我刚加入时，曾询问下一季度的路线图。得到的答复是：“我们没有那东西”（不过现在有了）。好的想法可以来自任何地方，而且事先往往很难判断哪个想法会最有成效。这里没有宏大的“总体规划”，所谓的进展，是在新研究不断结出硕果的过程中，一步步探索出来的。

正是得益于这种自下而上的文化，OpenAI 也非常任人唯贤。长久以来，公司领导者的晋升，主要看他们是否能提出好想法并将其付诸实践。许多能力超群的领导者，其实并不擅长在全员大会上演讲或玩弄办公室政治。但在 OpenAI，这些能力远不如在其他公司那么重要。最终，最好的想法总能脱颖而出。

这里有一种强烈的行动偏好（即“先做再说”）。不同团队（即使业务不相关）不约而同地想到一块儿去，是常有的事。我最初就参与了一个与 ChatGPT Connectors 类似的内部并行项目。在我们决定正式推出 Codex 之前，公司内部至少同时存在三到四个不同的原型。这些项目通常由少数几个人在没有申请许可的情况下自发启动。一旦项目显现出潜力，团队就会迅速围绕它们组建起来。

Andrey（Codex 项目负责人）曾对我说，你应该把每个研究员都看作是独立的“迷你 CEO”。他们有强烈的自主性，喜欢专注于自己的项目，看最终能做出什么。这里有一个推论——大部分研究课题，都是通过用一个极具吸引力的技术难题去“钓”（nerd-sniping）一个研究员来解决的。如果一件事被认为是无聊或“已解决”的，那它很可能就没人去做了。

优秀的研究经理影响力巨大，同时也极其稀缺。最顶尖的经理能将许多不同研究方向的成果串联起来，整合成更大规模的模型训练。优秀的 PM（产品经理）也是如此（在此特别感谢 ae）。

我合作过的 ChatGPT 团队的 EM（工程经理）们（Akshay、Rizzo、Sulman）是我见过的最沉着冷静的“客户”。你真的会觉得，他们在这个位置上已经见过了各种大风大浪。他们中的大多数人管理风格都比较放手，但他们会招募优秀的人才，并努力为这些人创造成功所需的一切条件。

OpenAI 的决策调整极其迅速。这也是我们之前在 Segment 公司非常推崇的一种特质——依据新信息做出正确调整，远比固守原有计划重要。值得注意的是，像 OpenAI 这样规模的公司竟仍保持着这种行事准则——谷歌显然就做不到。公司决策果断，一旦确定方向，便会全力以赴。

公司时刻处于聚光灯下，承受着巨大的审视压力。对于有我这样企业级（B2B）服务背景的人来说，这着实让我有些震惊。我经常在新闻上看到公司消息被爆出，而内部却尚未公布。当我告诉别人我在 OpenAI 工作时，对方往往已经对公司抱有先入为主的看法。甚至还有些 Twitter 用户用自动化程序时刻监控着我们，看是否即将发布新功能。

结果就是，OpenAI 成了一个高度保密的地方。我无法向任何人详细透露我的工作内容。公司内部有数个设定了不同权限的 Slack 工作空间。而收入和资金消耗等数据更是被严密守护的核心机密。

OpenAI 也是一个比你想象中更严肃的地方，部分原因是这里的利害关系实在太重大了。一方面，我们的目标是构建通用人工智能 (AGI)——这意味着有太多环节必须做对，不容有失。另一方面，你在构建一个有数亿用户依赖的产品，他们用它来获取从医疗建议到心理治疗的各种帮助。再者，公司正身处全球最顶级的竞争舞台。我们会密切关注 Meta、谷歌和 Anthropic 的一举一动——我相信他们也同样在关注我们。全球所有主要国家的政府也都在密切注视着这个领域的发展。

尽管 OpenAI 常常在媒体上备受诟病，但我遇到的每一个人，都真心实意地在努力做正确的事。由于其产品直接面向消费者，OpenAI 在几大研究实验室中最为瞩目，也因此招致了大量的污蔑和中伤。

话虽如此，你或许不该将 OpenAI 视为一块铁板。我眼中的 OpenAI，是一个像洛斯阿拉莫斯国家实验室那样起家的组织。它最初由一群探索科学前沿的科学家和技术爱好者组成。这个团体机缘巧合之下，创造出了史上最具现象级的消费级应用。随后，它又萌生了向政府和企业销售产品的雄心。因此，在公司里，不同司龄、不同部门的人，其目标和观点也大相径庭。你在那里待得越久，就越可能从“研究实验室”或“向善的非营利组织”的视角去看待事物。

我最欣赏的一点是，公司在普惠 AI 方面真正做到了“言行一致”。最前沿的模型并不会被捆绑在需要签订年度协议的企业级服务中。世界上的任何人都可以打开 ChatGPT 并获得答案，甚至无需登录。公司还提供了可供注册使用的 API——并且大部分模型（即便是最先进的或专有模型）也都会很快地通过 API 开放给创业公司使用。你可以想象一个与今天截然不同的、封闭的模式。OpenAI 在这方面的开放姿态值得高度赞扬，这也依然是其公司基因的核心部分。

实际上，安全问题远比你想象的要受重视得多——如果你只看 Zvi 或 Lesswrong 这类地方的文章，可能会得出相反的结论。有大量员工致力于开发安全系统。鉴于 OpenAI 的特性，我看到公司更关注实际风险（如仇恨言论、滥用、操纵政治偏见、制造生物武器、自残、提示词注入），而非理论风险（如智能爆炸、权力寻求）。这并非说没人研究后者，绝对有团队在专注于理论风险，但从我的视角来看，那并非重点。大部分已完成的安全工作都未曾公开发表，OpenAI 在这方面确实应该做得更多。

不像其他公司在招聘会上到处分发周边纪念品，OpenAI 基本上不怎么送这些东西（即便是对新员工）。取而代之的是定期的“上新（drops）”，你可以从内网商店订购库存商品。第一次上新时，巨大的需求甚至挤爆了 Shopify 商店。当时还有一篇内部帖子流传，教大家如何通过 POST 正确的 JSON 荷载来绕过系统限制抢购。

和 GPU 的成本比起来，几乎所有其他开销都可以算作是四舍五入的误差。举个例子让你感受一下：我们为 Codex 产品构建的一个小众功能，其 GPU 成本就和我们整个 Segment 公司的基础设施开销相当（当然，Segment 的流量规模不能和 ChatGPT 相提并论，但也承载了相当一部分互联网流量）。

OpenAI 可能是我见过最雄心勃勃到令人咋舌的组织。你或许觉得，拥有一个全球顶级的消费级应用就足够了，但它还渴望在数十个不同领域展开竞争：API 产品、前沿研究、硬件、编程 AI 智能体、图像生成，以及其他一些尚未公布的项目。这里是一片能让想法生根发芽并茁壮成长的沃土。

公司非常在意 Twitter 上的动态。如果你发了一条关于 OpenAI 的推文火了，那么很可能公司内部会有人读到并认真考虑你的观点。我一个朋友开玩笑说：“这家公司是靠 Twitter 上的‘感觉’（vibes）来运作的。” 作为一家面向消费者的公司，这么说或许不无道理。当然，公司内部有大量关于使用情况、用户增长和留存率的数据分析——但外界的“感觉”也同样重要。

OpenAI 的团队流动性比其他地方要强得多。当初为发布 Codex，我们需要几位经验丰富的 ChatGPT 工程师来帮忙，才能确保项目按时上线。我们和 ChatGPT 的几位工程经理（EM）开了个会提出请求，第二天就有两位顶尖高手准备好投入战斗了。整个过程完全没有所谓的“等季度规划”或“重新调配人力”，决策和行动都非常迅速。

领导层不仅高度透明，而且深度参与。在 OpenAI 这样的公司，这或许不足为奇，但每一位高管似乎都全情投入。你能在 Slack 上看到 gdb、sama、kw、mark、dane 等人频繁地参与讨论。这里没有甩手掌柜式的领导。

代码

OpenAI 使用一个庞大的单一代码库（monorepo），其中绝大部分是 Python（尽管 Rust 服务的数量在不断增加，也点缀着一些用于网络代理之类的 Golang 服务）。由于 Python 的写法五花八门，这导致代码库里存在许多风格迥异的代码。你既能看到来自谷歌十年资深工程师为大规模应用而设计的库，也能看到新晋博士们写的用完即弃的 Jupyter 笔记本。几乎所有东西都围绕 FastAPI 构建 API，并使用 Pydantic 进行数据验证。但公司层面并没有统一强制的编码风格指南。

OpenAI 的所有服务都运行在 Azure 上。有趣的是，在我看来，其中真正值得信赖的服务只有三个：Azure Kubernetes Service、CosmosDB（Azure 的文档数据库）和 BlobStore。平台上没有能与 AWS 的 Dynamo、Spanner、Bigtable、BigQuery、Kinesis 或 Aurora 真正对标的产品。因此，大家也很少去考虑自动伸缩单元这种东西。其 IAM（身份和访问管理）的实现也远比 AWS 的要局限。所以，公司内部有很强的自研倾向。

在人才方面（至少在工程团队），有一条非常明显的 Meta → OpenAI 的人才输送管道。从很多方面看，OpenAI 都很像早期的 Meta：一个现象级的消费级应用、一套尚在起步阶段的基础设施，以及一种对快速行动的极度渴望。我所见过的从 Meta 和 Instagram 招来的大部分基础设施人才都相当出色。

将这些因素结合起来，你就会发现许多核心基础设施都带有 Meta 的影子。公司内部有一个自研重构的 TAO（Meta 的社交图谱数据存储系统）。还有一个在边缘网络整合身份验证体系的项目。我相信还有很多我不知道的类似项目。

“聊天”这一概念在公司内部可谓深入骨髓。自从 ChatGPT 一炮而红后，大量的代码库都围绕着聊天消息和对话这些基本概念来构建。这些基础模块已经深度集成，如果你想绕开它们另起炉灶，风险会非常高。我们在 Codex 项目中确实对它们做了一些调整（更多地借鉴了从 responses API 中获得的经验），但也利用了大量既有的成果。

代码为王。在这里，决策通常不是由某个中央架构或规划委员会做出，而是由具体负责执行的团队来主导。这样做的结果是强烈的行动导向，但也常常导致代码库中出现许多功能重复的部分。我至少见过五六个用于队列管理或 AI 智能体循环之类的库。

在某些方面，工程团队的迅速扩张和工具链的匮乏也造成了一些问题。例如，sa-server（后端单体服务）有点像个大杂烩，什么代码都往里堆。主干分支（master）上的持续集成（CI）挂掉的频率远比你想象的要高。即使是并行运行并只包含部分依赖项的测试用例，在 GPU 上也可能要跑上 30 分钟。这些问题并非无解，但它很好地提醒了我们：这类工程难题无处不在，并且在公司极速扩张时只会愈演愈烈。值得称赞的是，公司内部团队正投入大量精力来改善这一局面。

我学到的其他事

一个大型消费品牌是什么样的。 直到我们开始开发 Codex，我才对此有了切身体会。所有指标都围绕着“专业版订阅数（pro subs）”来衡量。即便是像 Codex 这样的产品，我们考虑用户引导流程时，也主要是从个人使用而非团队使用的角度出发。这对于主要来自企业级（B2B）服务背景的我来说，确实有些颠覆认知。你只需按下一个开关，产品上线第一天流量就涌进来了。

如何（在高层面上）训练大语言模型。 这个过程横跨了一个从“实验”到“工程”的完整谱系。大多数想法都始于小规模实验。如果结果喜人，它们就会被整合进更大规模的训练任务中。所谓的实验，既包括调整核心算法，也包括调整数据配比，并仔细研究结果。而到了大规模阶段，一次大型训练任务几乎就像是一项庞大的分布式系统工程。你会遇到各种奇怪的边界情况和意想不到的问题，而调试它们正是你的工作。

如何做“GPU 算力规划”。 在 Codex 的发布筹备中，我们需要预测负载容量需求。那是我第一次真正花时间去为 GPU 做基准测试。这里的核心要点是：你应该从你所需要的延迟指标（如总体延迟、Token 数量、首个 Token 生成时间）出发，自上而下地进行规划，而不是自下而上地去分析单个 GPU 能支持什么。因为每个新模型的迭代都可能极大地改变负载模式。

如何在一个大型 Python 代码库中工作。 我之前的公司 Segment 是一个微服务架构，主要使用 Golang 和 TypeScript。我们从未处理过像 OpenAI 这样体量的代码库。我学到了很多关于如何根据贡献者数量来扩展代码库的经验。你必须设立更多的“护栏”机制，来保证诸如“默认可用”、“保持主分支整洁”和“难以被误用”等原则。

发布 Codex

我在 OpenAI 的最后三个月，一大部分时间都投入到了 Codex 的发布中。这无疑是我职业生涯最高光的时刻之一。

先介绍一下背景：早在 2024 年 11 月，OpenAI 就定下了在 2025 年推出一款编程 AI 智能体的目标。到了 2025 年 2 月，我们内部已经有好几个利用模型高效编程的工具原型。我们都感到，是时候推出一款专攻编程的 AI 智能体了，压力也随之而来。很明显，模型的能力已经发展到了一个临界点，在编程领域变得非常实用（从市场上大量涌现的新兴“感觉流”编程工具就能看出来）。

我为此提前结束了陪产假，回来参与 Codex 的发布工作。刚回来一周，我们就经历了一次两个团队略显混乱的合并，随即开启了一场极限冲刺。从零开始（写下第一行代码）到项目完成，整个产品从无到有只花了短短 7 周时间。

这次 Codex 冲刺，可能是我近十年来工作最拼命的一段时间。大多数晚上都干到十一二点。每天清晨 5:30 被新生宝宝吵醒，早上 7 点又赶去办公室。大部分周末也都在工作。我们整个团队都拼尽了全力，因为每一周都至关重要。这让我想起了当年在 YC 创业孵化器的日子。

这种开发速度有多惊人，再怎么强调也不为过。我从未见过任何一个组织，无论大小，能在如此短的时间内，将一个想法变为一个功能完整、免费开放的产品。而且项目范围也并不小：我们构建了一个容器化运行时环境，对代码仓库的下载做了优化，微调了一个专门处理代码编辑的定制模型，处理了各种 Git 操作，引入了一套全新的交互界面，打通了网络访问，最终打造出了一款在综合体验上令人愉悦的产品。

不管外界怎么评价，OpenAI 依然保有那种勇于发布、快速迭代的创业精神。

好消息是，对的人凑在一起真的能创造奇迹。我们是一个由大约 8 名资深工程师、4 名研究员、2 名设计师、2 名 GTM（市场推广）和 1 名 PM（产品经理）组成的核心团队。如果没有这样一群人，我想我们早就失败了。团队里没人需要太多指令，但我们确实需要大量的协同配合。如果你有机会与 Codex 团队的任何一位成员共事，请相信我，他们每一位都极其出色。

发布前一晚，我们团队有五个人一直熬到凌晨四点，就为了部署那个庞大的主单体应用（这个过程本身就要花好几个小时）。之后又赶回办公室，参加早上八点的发布会和直播。我们开启了功能开关，眼看着流量如潮水般涌入。我从未见过任何产品，仅仅是出现在左侧边栏，就能获得如此迅猛的用户增长——但这就是 ChatGPT 的力量。

在产品形态上，我们最终确定了一种完全异步的设计。与 Cursor（当时的版本，现在它也支持类似模式）或 Claude Code 等工具不同，我们的目标是让用户能够下达任务，然后让 AI 智能体在自己的独立环境中运行。我们赌的是，在未来的终极形态中，用户对待一个编程 AI 智能体，应该就像对待一位同事：你发消息给它，它花些时间完成工作，然后带着一个 Pull Request (PR) 回来向你交付成果。

这在当时是一场不小的赌博：我们如今正处在一个微妙的阶段，模型的能力很不错，但还没到卓越的程度。它们可以连续工作几分钟，但还无法持续数小时。用户对模型能力的信任度也千差万别。甚至我们自己也不完全清楚模型能力的真正上限在哪里。

但放眼长远，我坚信，未来绝大多数的编程工作都会更接近 Codex 的模式。在此期间，观察所有这些同类产品将如何演进和发展，将会是一件非常有趣的事。

Codex（或许不出所料）非常擅长在大型代码库中工作，并能理解如何在其中穿梭导航。我所见到的、它与其他工具最大的差异点，在于能够一次性启动多个任务，并对它们的产出进行比较。

我最近看到一份公开数据，比较了不同大语言模型 (LLM) AI 智能体所创建的 PR 数量。仅看公开的数字，Codex 就已经生成了 63 万个 PR。这相当于自发布以来的 53 天里，团队中的每位工程师平均贡献了 7.8 万个公开 PR（至于私有仓库中的 PR 数量是这个数字的多少倍，你可以自行想象）。我敢说，我这辈子从没做过影响力如此巨大的事情。

临别感想

说实话，我最初对于加入 OpenAI 是心存疑虑的。我不确定那种牺牲自由、向老板汇报、成为一部庞大机器里微不足道一环的生活会是什么样子。因此，在我刚加入时，我一直保持得相当低调，就是为了以防万一这不适合我。

但我确实希望从这段经历中收获三件事……

对模型的训练方式及其能力演进方向建立起直觉。
与优秀的人共事，并向他们学习。
发布一款卓越的产品。

回顾这一年，我认为这是我做过的最正确的决定之一。很难想象在其他任何地方能学到更多东西。

如果你是一位创始人，感觉自己的创业公司停滞不前，你应该要么 1) 深入地重新审视，找到更多有效的方法去尝试，要么 2) 去加入一家顶级的人工智能实验室。当下是投身建设的绝佳时机，同时也是洞见未来发展方向的绝佳时机。

在我看来，通往通用人工智能 (AGI) 的道路目前是一场三驾马车的竞赛：OpenAI、Anthropic 和谷歌。这三家机构的基因（分别是：消费者导向 vs. 企业导向 vs. 坚如磐石的基础设施 + 海量数据）决定了它们会采取截然不同的路径。⁶ 在其中任何一家工作，都将是一次让你大开眼界的经历。

感谢 Leah，在我熬夜奋战的日子里，你给予了我无与伦比的支持，并承担了绝大部分照顾孩子的工作。感谢 PW、GDB 和 Rizzo 给了我这个宝贵的机会。感谢 SA 团队的伙伴们带我入门：Andrew、Anup、Bill、Kwaz、Ming、Simon、Tony 和 Val。还要感谢 Codex 核心团队的每一个人，是你们给了我这段一生难忘的旅程：Albin、AE、Andrey、Bryan、Channing、DavidK、Gabe、Gladstone、Hanson、Joey、Josh、Katy、KevinT、Max、Sabrina、SQ、Tibo、TZ 和 Will。我永远不会忘记这次冲刺。

文化#

代码#

我学到的其他事#

发布 Codex#

临别感想#

文化

代码

我学到的其他事

发布 Codex

临别感想