《Reflections on OpenAI》

2025年7月15日

我是三周前离开 OpenAI 的,而我加入公司是在 2024 年 5 月。

我想分享我的思考,是因为外界对 OpenAI 的所作所为众说纷纭、传闻不断,但却鲜有人亲口讲述在那儿工作的真实文化氛围。

Nabeel Quereshi 写过一篇很棒的文章,叫《关于 Palantir 的一些思考》,文中他详细阐述了 Palantir 的特别之处。我也想趁着记忆犹新,为 OpenAI 写下同样的文字。你在这里不会看到任何商业机密,更多的是关于这个史上最引人入胜的组织之一,在当前这个极不寻常时期的一些个人感悟。

首先声明:我决定离开并非出于任何个人恩怨——实际上,这个决定曾让我内心无比纠结。从一个创业公司的创始人,转变为一个三千人大机构的员工,这个过程并不容易。眼下,我渴望的是一个全新的开始。

这份工作的魅力完全有可能再次将我吸引回来。毕竟,很难想象有什么工作能比构建通用人工智能 (AGI) 更具影响力了,而大语言模型 (LLM) 无疑是这十年来的顶尖技术创新。能够亲身见证一些技术进展,并参与 Codex 项目的发布,我深感幸运。

当然,这些仅为个人观察,不代表公司立场。OpenAI 是个庞大的机构,本文只是我管中窥豹,所见一斑。

文化

了解 OpenAI,首先要知道它的发展速度有多惊人。我刚加入时,公司才 1000 多人。一年后,员工数已超过 3000,而按司龄算,我已经排进了前 30%。几乎所有领导层当前的工作,都和他们两三年前的职责大相径庭。

当然,如此迅猛的扩张之下,各种问题都会暴露出来:公司层面的沟通方式、汇报结构、产品交付流程、人员管理与组织、招聘过程等等。不同团队的文化也大相径庭:有些团队始终在全力冲刺,有些则需要时刻盯着大型计算任务,还有一些则保持着更为稳健的节奏。在 OpenAI 没有所谓的单一体验,研究、应用和市场(GTM)团队的运作周期和视角也截然不同。

OpenAI 有一个特别之处:所有事情——我是说所有事情——都在 Slack 上进行。这里没有电子邮件。我在那里的全部时间里,大概总共只收到过 10 封邮件。如果你不善于整理信息,会觉得这种工作方式极易让人分心。但如果你能精心管理自己的频道和通知,它还是相当高效的。

OpenAI 的文化是高度自下而上的,在研究领域尤其如此。我刚加入时,曾询问下一季度的路线图。得到的答复是:“我们没有那东西”(不过现在有了)。好的想法可以来自任何地方,而且事先往往很难判断哪个想法会最有成效。这里没有宏大的“总体规划”,所谓的进展,是在新研究不断结出硕果的过程中,一步步探索出来的。

正是得益于这种自下而上的文化,OpenAI 也非常任人唯贤。长久以来,公司领导者的晋升,主要看他们是否能提出好想法并将其付诸实践。许多能力超群的领导者,其实并不擅长在全员大会上演讲或玩弄办公室政治。但在 OpenAI,这些能力远不如在其他公司那么重要。最终,最好的想法总能脱颖而出。

这里有一种强烈的行动偏好(即“先做再说”)。不同团队(即使业务不相关)不约而同地想到一块儿去,是常有的事。我最初就参与了一个与 ChatGPT Connectors 类似的内部并行项目。在我们决定正式推出 Codex 之前,公司内部至少同时存在三到四个不同的原型。这些项目通常由少数几个人在没有申请许可的情况下自发启动。一旦项目显现出潜力,团队就会迅速围绕它们组建起来。

Andrey(Codex 项目负责人)曾对我说,你应该把每个研究员都看作是独立的“迷你 CEO”。他们有强烈的自主性,喜欢专注于自己的项目,看最终能做出什么。这里有一个推论——大部分研究课题,都是通过用一个极具吸引力的技术难题去“钓”(nerd-sniping)一个研究员来解决的。如果一件事被认为是无聊或“已解决”的,那它很可能就没人去做了。

优秀的研究经理影响力巨大,同时也极其稀缺。最顶尖的经理能将许多不同研究方向的成果串联起来,整合成更大规模的模型训练。优秀的 PM(产品经理)也是如此(在此特别感谢 ae)。

我合作过的 ChatGPT 团队的 EM(工程经理)们(Akshay、Rizzo、Sulman)是我见过的最沉着冷静的“客户”。你真的会觉得,他们在这个位置上已经见过了各种大风大浪。他们中的大多数人管理风格都比较放手,但他们会招募优秀的人才,并努力为这些人创造成功所需的一切条件。

OpenAI 的决策调整极其迅速。这也是我们之前在 Segment 公司非常推崇的一种特质——依据新信息做出正确调整,远比固守原有计划重要。值得注意的是,像 OpenAI 这样规模的公司竟仍保持着这种行事准则——谷歌显然就做不到。公司决策果断,一旦确定方向,便会全力以赴。

公司时刻处于聚光灯下,承受着巨大的审视压力。对于有我这样企业级(B2B)服务背景的人来说,这着实让我有些震惊。我经常在新闻上看到公司消息被爆出,而内部却尚未公布。当我告诉别人我在 OpenAI 工作时,对方往往已经对公司抱有先入为主的看法。甚至还有些 Twitter 用户用自动化程序时刻监控着我们,看是否即将发布新功能。

结果就是,OpenAI 成了一个高度保密的地方。我无法向任何人详细透露我的工作内容。公司内部有数个设定了不同权限的 Slack 工作空间。而收入和资金消耗等数据更是被严密守护的核心机密。

OpenAI 也是一个比你想象中更严肃的地方,部分原因是这里的利害关系实在太重大了。一方面,我们的目标是构建通用人工智能 (AGI)——这意味着有太多环节必须做对,不容有失。另一方面,你在构建一个有数亿用户依赖的产品,他们用它来获取从医疗建议到心理治疗的各种帮助。再者,公司正身处全球最顶级的竞争舞台。我们会密切关注 Meta、谷歌和 Anthropic 的一举一动——我相信他们也同样在关注我们。全球所有主要国家的政府也都在密切注视着这个领域的发展。

尽管 OpenAI 常常在媒体上备受诟病,但我遇到的每一个人,都真心实意地在努力做正确的事。由于其产品直接面向消费者,OpenAI 在几大研究实验室中最为瞩目,也因此招致了大量的污蔑和中伤。

话虽如此,你或许不该将 OpenAI 视为一块铁板。我眼中的 OpenAI,是一个像洛斯阿拉莫斯国家实验室那样起家的组织。它最初由一群探索科学前沿的科学家和技术爱好者组成。这个团体机缘巧合之下,创造出了史上最具现象级的消费级应用。随后,它又萌生了向政府和企业销售产品的雄心。因此,在公司里,不同司龄、不同部门的人,其目标和观点也大相径庭。你在那里待得越久,就越可能从“研究实验室”或“向善的非营利组织”的视角去看待事物。

我最欣赏的一点是,公司在普惠 AI 方面真正做到了“言行一致”。最前沿的模型并不会被捆绑在需要签订年度协议的企业级服务中。世界上的任何人都可以打开 ChatGPT 并获得答案,甚至无需登录。公司还提供了可供注册使用的 API——并且大部分模型(即便是最先进的或专有模型)也都会很快地通过 API 开放给创业公司使用。你可以想象一个与今天截然不同的、封闭的模式。OpenAI 在这方面的开放姿态值得高度赞扬,这也依然是其公司基因的核心部分。

实际上,安全问题远比你想象的要受重视得多——如果你只看 Zvi 或 Lesswrong 这类地方的文章,可能会得出相反的结论。有大量员工致力于开发安全系统。鉴于 OpenAI 的特性,我看到公司更关注实际风险(如仇恨言论、滥用、操纵政治偏见、制造生物武器、自残、提示词注入),而非理论风险(如智能爆炸、权力寻求)。这并非说没人研究后者,绝对有团队在专注于理论风险,但从我的视角来看,那并非重点。大部分已完成的安全工作都未曾公开发表,OpenAI 在这方面确实应该做得更多。

不像其他公司在招聘会上到处分发周边纪念品,OpenAI 基本上不怎么送这些东西(即便是对新员工)。取而代之的是定期的“上新(drops)”,你可以从内网商店订购库存商品。第一次上新时,巨大的需求甚至挤爆了 Shopify 商店。当时还有一篇内部帖子流传,教大家如何通过 POST 正确的 JSON 荷载来绕过系统限制抢购。

和 GPU 的成本比起来,几乎所有其他开销都可以算作是四舍五入的误差。举个例子让你感受一下:我们为 Codex 产品构建的一个小众功能,其 GPU 成本就和我们整个 Segment 公司的基础设施开销相当(当然,Segment 的流量规模不能和 ChatGPT 相提并论,但也承载了相当一部分互联网流量)。

OpenAI 可能是我见过最雄心勃勃到令人咋舌的组织。你或许觉得,拥有一个全球顶级的消费级应用就足够了,但它还渴望在数十个不同领域展开竞争:API 产品、前沿研究、硬件、编程 AI 智能体、图像生成,以及其他一些尚未公布的项目。这里是一片能让想法生根发芽并茁壮成长的沃土。

公司非常在意 Twitter 上的动态。如果你发了一条关于 OpenAI 的推文火了,那么很可能公司内部会有人读到并认真考虑你的观点。我一个朋友开玩笑说:“这家公司是靠 Twitter 上的‘感觉’(vibes)来运作的。” 作为一家面向消费者的公司,这么说或许不无道理。当然,公司内部有大量关于使用情况、用户增长和留存率的数据分析——但外界的“感觉”也同样重要。

OpenAI 的团队流动性比其他地方要强得多。当初为发布 Codex,我们需要几位经验丰富的 ChatGPT 工程师来帮忙,才能确保项目按时上线。我们和 ChatGPT 的几位工程经理(EM)开了个会提出请求,第二天就有两位顶尖高手准备好投入战斗了。整个过程完全没有所谓的“等季度规划”或“重新调配人力”,决策和行动都非常迅速。

领导层不仅高度透明,而且深度参与。在 OpenAI 这样的公司,这或许不足为奇,但每一位高管似乎都全情投入。你能在 Slack 上看到 gdb、sama、kw、mark、dane 等人频繁地参与讨论。这里没有甩手掌柜式的领导。

代码

OpenAI 使用一个庞大的单一代码库(monorepo),其中绝大部分是 Python(尽管 Rust 服务的数量在不断增加,也点缀着一些用于网络代理之类的 Golang 服务)。由于 Python 的写法五花八门,这导致代码库里存在许多风格迥异的代码。你既能看到来自谷歌十年资深工程师为大规模应用而设计的库,也能看到新晋博士们写的用完即弃的 Jupyter 笔记本。几乎所有东西都围绕 FastAPI 构建 API,并使用 Pydantic 进行数据验证。但公司层面并没有统一强制的编码风格指南。

OpenAI 的所有服务都运行在 Azure 上。有趣的是,在我看来,其中真正值得信赖的服务只有三个:Azure Kubernetes Service、CosmosDB(Azure 的文档数据库)和 BlobStore。平台上没有能与 AWS 的 Dynamo、Spanner、Bigtable、BigQuery、Kinesis 或 Aurora 真正对标的产品。因此,大家也很少去考虑自动伸缩单元这种东西。其 IAM(身份和访问管理)的实现也远比 AWS 的要局限。所以,公司内部有很强的自研倾向。

在人才方面(至少在工程团队),有一条非常明显的 Meta → OpenAI 的人才输送管道。从很多方面看,OpenAI 都很像早期的 Meta:一个现象级的消费级应用、一套尚在起步阶段的基础设施,以及一种对快速行动的极度渴望。我所见过的从 Meta 和 Instagram 招来的大部分基础设施人才都相当出色。

将这些因素结合起来,你就会发现许多核心基础设施都带有 Meta 的影子。公司内部有一个自研重构的 TAO(Meta 的社交图谱数据存储系统)。还有一个在边缘网络整合身份验证体系的项目。我相信还有很多我不知道的类似项目。

“聊天”这一概念在公司内部可谓深入骨髓。自从 ChatGPT 一炮而红后,大量的代码库都围绕着聊天消息和对话这些基本概念来构建。这些基础模块已经深度集成,如果你想绕开它们另起炉灶,风险会非常高。我们在 Codex 项目中确实对它们做了一些调整(更多地借鉴了从 responses API 中获得的经验),但也利用了大量既有的成果。

代码为王。在这里,决策通常不是由某个中央架构或规划委员会做出,而是由具体负责执行的团队来主导。这样做的结果是强烈的行动导向,但也常常导致代码库中出现许多功能重复的部分。我至少见过五六个用于队列管理或 AI 智能体循环之类的库。

在某些方面,工程团队的迅速扩张和工具链的匮乏也造成了一些问题。例如,sa-server(后端单体服务)有点像个大杂烩,什么代码都往里堆。主干分支(master)上的持续集成(CI)挂掉的频率远比你想象的要高。即使是并行运行并只包含部分依赖项的测试用例,在 GPU 上也可能要跑上 30 分钟。这些问题并非无解,但它很好地提醒了我们:这类工程难题无处不在,并且在公司极速扩张时只会愈演愈烈。值得称赞的是,公司内部团队正投入大量精力来改善这一局面。

我学到的其他事

一个大型消费品牌是什么样的。 直到我们开始开发 Codex,我才对此有了切身体会。所有指标都围绕着“专业版订阅数(pro subs)”来衡量。即便是像 Codex 这样的产品,我们考虑用户引导流程时,也主要是从个人使用而非团队使用的角度出发。这对于主要来自企业级(B2B)服务背景的我来说,确实有些颠覆认知。你只需按下一个开关,产品上线第一天流量就涌进来了。

如何(在高层面上)训练大语言模型。 这个过程横跨了一个从“实验”到“工程”的完整谱系。大多数想法都始于小规模实验。如果结果喜人,它们就会被整合进更大规模的训练任务中。所谓的实验,既包括调整核心算法,也包括调整数据配比,并仔细研究结果。而到了大规模阶段,一次大型训练任务几乎就像是一项庞大的分布式系统工程。你会遇到各种奇怪的边界情况和意想不到的问题,而调试它们正是你的工作。

如何做“GPU 算力规划”。 在 Codex 的发布筹备中,我们需要预测负载容量需求。那是我第一次真正花时间去为 GPU 做基准测试。这里的核心要点是:你应该从你所需要的延迟指标(如总体延迟、Token 数量、首个 Token 生成时间)出发,自上而下地进行规划,而不是自下而上地去分析单个 GPU 能支持什么。因为每个新模型的迭代都可能极大地改变负载模式。

如何在一个大型 Python 代码库中工作。 我之前的公司 Segment 是一个微服务架构,主要使用 Golang 和 TypeScript。我们从未处理过像 OpenAI 这样体量的代码库。我学到了很多关于如何根据贡献者数量来扩展代码库的经验。你必须设立更多的“护栏”机制,来保证诸如“默认可用”、“保持主分支整洁”和“难以被误用”等原则。

发布 Codex

我在 OpenAI 的最后三个月,一大部分时间都投入到了 Codex 的发布中。这无疑是我职业生涯最高光的时刻之一。

先介绍一下背景:早在 2024 年 11 月,OpenAI 就定下了在 2025 年推出一款编程 AI 智能体的目标。到了 2025 年 2 月,我们内部已经有好几个利用模型高效编程的工具原型。我们都感到,是时候推出一款专攻编程的 AI 智能体了,压力也随之而来。很明显,模型的能力已经发展到了一个临界点,在编程领域变得非常实用(从市场上大量涌现的新兴“感觉流”编程工具就能看出来)。

我为此提前结束了陪产假,回来参与 Codex 的发布工作。刚回来一周,我们就经历了一次两个团队略显混乱的合并,随即开启了一场极限冲刺。从零开始(写下第一行代码)到项目完成,整个产品从无到有只花了短短 7 周时间。

这次 Codex 冲刺,可能是我近十年来工作最拼命的一段时间。大多数晚上都干到十一二点。每天清晨 5:30 被新生宝宝吵醒,早上 7 点又赶去办公室。大部分周末也都在工作。我们整个团队都拼尽了全力,因为每一周都至关重要。这让我想起了当年在 YC 创业孵化器的日子。

这种开发速度有多惊人,再怎么强调也不为过。我从未见过任何一个组织,无论大小,能在如此短的时间内,将一个想法变为一个功能完整、免费开放的产品。而且项目范围也并不小:我们构建了一个容器化运行时环境,对代码仓库的下载做了优化,微调了一个专门处理代码编辑的定制模型,处理了各种 Git 操作,引入了一套全新的交互界面,打通了网络访问,最终打造出了一款在综合体验上令人愉悦的产品。

不管外界怎么评价,OpenAI 依然保有那种勇于发布、快速迭代的创业精神。

好消息是,对的人凑在一起真的能创造奇迹。我们是一个由大约 8 名资深工程师、4 名研究员、2 名设计师、2 名 GTM(市场推广)和 1 名 PM(产品经理)组成的核心团队。如果没有这样一群人,我想我们早就失败了。团队里没人需要太多指令,但我们确实需要大量的协同配合。如果你有机会与 Codex 团队的任何一位成员共事,请相信我,他们每一位都极其出色。

发布前一晚,我们团队有五个人一直熬到凌晨四点,就为了部署那个庞大的主单体应用(这个过程本身就要花好几个小时)。之后又赶回办公室,参加早上八点的发布会和直播。我们开启了功能开关,眼看着流量如潮水般涌入。我从未见过任何产品,仅仅是出现在左侧边栏,就能获得如此迅猛的用户增长——但这就是 ChatGPT 的力量。

在产品形态上,我们最终确定了一种完全异步的设计。与 Cursor(当时的版本,现在它也支持类似模式)或 Claude Code 等工具不同,我们的目标是让用户能够下达任务,然后让 AI 智能体在自己的独立环境中运行。我们赌的是,在未来的终极形态中,用户对待一个编程 AI 智能体,应该就像对待一位同事:你发消息给它,它花些时间完成工作,然后带着一个 Pull Request (PR) 回来向你交付成果。

这在当时是一场不小的赌博:我们如今正处在一个微妙的阶段,模型的能力很不错,但还没到卓越的程度。它们可以连续工作几分钟,但还无法持续数小时。用户对模型能力的信任度也千差万别。甚至我们自己也不完全清楚模型能力的真正上限在哪里。

但放眼长远,我坚信,未来绝大多数的编程工作都会更接近 Codex 的模式。在此期间,观察所有这些同类产品将如何演进和发展,将会是一件非常有趣的事。

Codex(或许不出所料)非常擅长在大型代码库中工作,并能理解如何在其中穿梭导航。我所见到的、它与其他工具最大的差异点,在于能够一次性启动多个任务,并对它们的产出进行比较。

我最近看到一份公开数据,比较了不同大语言模型 (LLM) AI 智能体所创建的 PR 数量。仅看公开的数字,Codex 就已经生成了 63 万个 PR。这相当于自发布以来的 53 天里,团队中的每位工程师平均贡献了 7.8 万个公开 PR(至于私有仓库中的 PR 数量是这个数字的多少倍,你可以自行想象)。我敢说,我这辈子从没做过影响力如此巨大的事情。

临别感想

说实话,我最初对于加入 OpenAI 是心存疑虑的。我不确定那种牺牲自由、向老板汇报、成为一部庞大机器里微不足道一环的生活会是什么样子。因此,在我刚加入时,我一直保持得相当低调,就是为了以防万一这不适合我。

但我确实希望从这段经历中收获三件事……

  • 对模型的训练方式及其能力演进方向建立起直觉。
  • 与优秀的人共事,并向他们学习。
  • 发布一款卓越的产品。

回顾这一年,我认为这是我做过的最正确的决定之一。很难想象在其他任何地方能学到更多东西。

如果你是一位创始人,感觉自己的创业公司停滞不前,你应该要么 1) 深入地重新审视,找到更多有效的方法去尝试,要么 2) 去加入一家顶级的人工智能实验室。当下是投身建设的绝佳时机,同时也是洞见未来发展方向的绝佳时机。

在我看来,通往通用人工智能 (AGI) 的道路目前是一场三驾马车的竞赛:OpenAI、Anthropic 和谷歌。这三家机构的基因(分别是:消费者导向 vs. 企业导向 vs. 坚如磐石的基础设施 + 海量数据)决定了它们会采取截然不同的路径。⁶ 在其中任何一家工作,都将是一次让你大开眼界的经历。

感谢 Leah,在我熬夜奋战的日子里,你给予了我无与伦比的支持,并承担了绝大部分照顾孩子的工作。感谢 PW、GDB 和 Rizzo 给了我这个宝贵的机会。感谢 SA 团队的伙伴们带我入门:Andrew、Anup、Bill、Kwaz、Ming、Simon、Tony 和 Val。还要感谢 Codex 核心团队的每一个人,是你们给了我这段一生难忘的旅程:Albin、AE、Andrey、Bryan、Channing、DavidK、Gabe、Gladstone、Hanson、Joey、Josh、Katy、KevinT、Max、Sabrina、SQ、Tibo、TZ 和 Will。我永远不会忘记这次冲刺。