关于 OpenAI 的一些思考 -- Calvin French-Owen

《Reflections on OpenAI》 2025年7月15日 我是三周前离开 OpenAI 的,而我加入公司是在 2024 年 5 月。 我想分享我的思考,是因为外界对 OpenAI 的所作所为众说纷纭、传闻不断,但却鲜有人亲口讲述在那儿工作的真实文化氛围。 Nabeel Quereshi 写过一篇很棒的文章,叫《关于 Palantir 的一些思考》,文中他详细阐述了 Palantir 的特别之处。我也想趁着记忆犹新,为 OpenAI 写下同样的文字。你在这里不会看到任何商业机密,更多的是关于这个史上最引人入胜的组织之一,在当前这个极不寻常时期的一些个人感悟。 首先声明:我决定离开并非出于任何个人恩怨——实际上,这个决定曾让我内心无比纠结。从一个创业公司的创始人,转变为一个三千人大机构的员工,这个过程并不容易。眼下,我渴望的是一个全新的开始。 这份工作的魅力完全有可能再次将我吸引回来。毕竟,很难想象有什么工作能比构建通用人工智能 (AGI) 更具影响力了,而大语言模型 (LLM) 无疑是这十年来的顶尖技术创新。能够亲身见证一些技术进展,并参与 Codex 项目的发布,我深感幸运。 当然,这些仅为个人观察,不代表公司立场。OpenAI 是个庞大的机构,本文只是我管中窥豹,所见一斑。 文化 了解 OpenAI,首先要知道它的发展速度有多惊人。我刚加入时,公司才 1000 多人。一年后,员工数已超过 3000,而按司龄算,我已经排进了前 30%。几乎所有领导层当前的工作,都和他们两三年前的职责大相径庭。 当然,如此迅猛的扩张之下,各种问题都会暴露出来:公司层面的沟通方式、汇报结构、产品交付流程、人员管理与组织、招聘过程等等。不同团队的文化也大相径庭:有些团队始终在全力冲刺,有些则需要时刻盯着大型计算任务,还有一些则保持着更为稳健的节奏。在 OpenAI 没有所谓的单一体验,研究、应用和市场(GTM)团队的运作周期和视角也截然不同。 OpenAI 有一个特别之处:所有事情——我是说所有事情——都在 Slack 上进行。这里没有电子邮件。我在那里的全部时间里,大概总共只收到过 10 封邮件。如果你不善于整理信息,会觉得这种工作方式极易让人分心。但如果你能精心管理自己的频道和通知,它还是相当高效的。 OpenAI 的文化是高度自下而上的,在研究领域尤其如此。我刚加入时,曾询问下一季度的路线图。得到的答复是:“我们没有那东西”(不过现在有了)。好的想法可以来自任何地方,而且事先往往很难判断哪个想法会最有成效。这里没有宏大的“总体规划”,所谓的进展,是在新研究不断结出硕果的过程中,一步步探索出来的。 正是得益于这种自下而上的文化,OpenAI 也非常任人唯贤。长久以来,公司领导者的晋升,主要看他们是否能提出好想法并将其付诸实践。许多能力超群的领导者,其实并不擅长在全员大会上演讲或玩弄办公室政治。但在 OpenAI,这些能力远不如在其他公司那么重要。最终,最好的想法总能脱颖而出。 这里有一种强烈的行动偏好(即“先做再说”)。不同团队(即使业务不相关)不约而同地想到一块儿去,是常有的事。我最初就参与了一个与 ChatGPT Connectors 类似的内部并行项目。在我们决定正式推出 Codex 之前,公司内部至少同时存在三到四个不同的原型。这些项目通常由少数几个人在没有申请许可的情况下自发启动。一旦项目显现出潜力,团队就会迅速围绕它们组建起来。 Andrey(Codex 项目负责人)曾对我说,你应该把每个研究员都看作是独立的“迷你 CEO”。他们有强烈的自主性,喜欢专注于自己的项目,看最终能做出什么。这里有一个推论——大部分研究课题,都是通过用一个极具吸引力的技术难题去“钓”(nerd-sniping)一个研究员来解决的。如果一件事被认为是无聊或“已解决”的,那它很可能就没人去做了。 优秀的研究经理影响力巨大,同时也极其稀缺。最顶尖的经理能将许多不同研究方向的成果串联起来,整合成更大规模的模型训练。优秀的 PM(产品经理)也是如此(在此特别感谢 ae)。 我合作过的 ChatGPT 团队的 EM(工程经理)们(Akshay、Rizzo、Sulman)是我见过的最沉着冷静的“客户”。你真的会觉得,他们在这个位置上已经见过了各种大风大浪。他们中的大多数人管理风格都比较放手,但他们会招募优秀的人才,并努力为这些人创造成功所需的一切条件。 ...

July 16, 2025 · 小茄墩

GPT-4.5

GPT-4.5正式发布,作为"研究预览版"面向OpenAI Pro会员(200美元/月)及持有API密钥的开发者开放。 目前定价体系极为高昂:输入Token每百万75美元,输出Token每百万150美元。作为对比,o1模型价格为15/60美元,GPT-4o仅需2.50/10美元。 官方公布的胜率对比图表显示,GPT-4.5在不同查询类别中相对GPT-4o的胜率介于56.8%-63.2%: 在SimpleQA幻觉率测试中,该模型降至37.1%——较GPT-4o(61.8%)和o3-mini(80.3%)显著优化,但与o1(44%)相比提升有限。编码基准测试成绩与o3-mini基本持平。 OpenAI对模型前景持审慎态度: 鉴于GPT-4.5作为超大规模计算密集型模型,其使用成本⁠高于GPT-4o且不具备替代性,我们正在评估是否长期维持其API服务,以平衡现有能力支持与未来模型研发。 Andrej Karpathy指出相较GPT-4训练成本增加10倍的情况下改进幅度有限: 每个 0.5 版本号大致对应 10 倍预训练算力。回顾历史:GPT-1 几乎无法生成连贯文本,GPT-2 是个混乱的玩具,GPT-2.5 被直接跳过升级到 GPT-3(后者更加有趣),GPT-3.5 跨越了产品化门槛并引发 OpenAI 的"ChatGPT 时刻",而 GPT-4 虽感知更好但提升微妙。记得在黑客马拉松中,我们曾费力寻找能体现 GPT-4 明显优于 3.5 的具体提示案例——这类案例确实存在,但明确且具说服力的"完胜"示例却难以寻觅。这种提升如同潮水托起所有船只:措辞更富创意,提示的细微理解更精准,类比更合理,幽默感更佳,冷门领域知识更完善,幻觉频率略降。整体氛围提升约 20%。带着这种预期,我测试了已接触数日的 GPT-4.5(其预训练算力是 GPT-4 的 10 倍),却仿佛重演两年前场景:所有方面都有提升,但这种进步依旧难以具体量化。尽管如此,作为通过简单预训练更大模型就能"免费"获得能力提升的又一次定性测量,这仍令人极度兴奋。 需特别说明,GPT-4.5 仅通过预训练、监督微调和 RLHF 训练,尚未成为推理型模型。因此在需要关键推理的领域(数学、编程等),本次发布并未推进模型能力。这些领域仍需基于旧版基础模型(如 GPT-4 级别)进行强化学习训练来培养思维能力。当前该领域标杆仍是完整版 o1 系统。预计 OpenAI 将在 GPT-4.5 基础上继续强化学习训练以提升推理能力。 但我们确实预期非重度推理任务会有改进——这些任务更多涉及情商(而非智商),受限于世界知识、创造力、类比能力、综合理解力和幽默感等维度。这正是我在氛围测试中最关注的部分。 关于OpenAI GPT-4.5 System Card的部分摘录 我们正式发布OpenAI GPT-4.5的研究预览版,这是目前规模最大、知识储备最丰富的模型。该模型基于GPT-4o构建,通过扩展预训练规模,其设计比专注STEM领域推理的模型更具通用性。==我们采用新型监督技术结合监督微调(SFT)和基于人类反馈的强化学习(RLHF)等传统方法进行训练,这些方法与GPT-4o的训练策略相似==。部署前进行的全面安全评估表明,相较于现有模型,其安全风险未见显著增加。 初期测试显示,与GPT-4.5的交互更加自然。凭借更广泛的知识库、更强的用户意图对齐能力以及提升的情感智能,该模型在写作、编程和解决实际问题等任务中表现优异,且==产生幻觉的概率更低==。我们以研究预览版形式发布GPT-4.5,旨在深入理解其优势与局限。我们持续探索其能力边界,并期待用户开发出超乎预期的应用场景。 本系统说明书遵循OpenAI安全流程和准备框架,详细阐述了GPT-4.5的构建训练过程、能力评估体系与安全强化措施。 2 模型数据与训练 推进无监督学习前沿 我们通过扩展两大范式提升AI能力:==无监督学习与思维链推理==。扩展思维链推理( Scaling chain-of-thought reasoning)使模型具备"先思考后应答"的能力,可处理复杂STEM问题或逻辑难题。而无监督学习范式的扩展( scaling unsupervised learning)则能提高世界模型的准确性,降低幻觉率,增强联想思维能力。==GPT-4.5正是我们在无监督学习范式扩展道路上的最新里程碑==。 新型对齐技术促进人机协作随着模型规模扩大及其解决问题的广度复杂度提升,增强模型对人类需求与意图的理解变得至关重要。针对GPT-4.5,我们开发了新型可扩展对齐技术,==可利用小模型衍生的数据训练更强大的模型==。这些技术显著提升了GPT-4.5的可控性、细微语义理解能力和自然对话水平。内部测试反馈显示,GPT-4.5具有温润、直觉化的交互特质。面对情感类诉求时,能精准把握提供建议、化解负面情绪或单纯倾听的时机。 ...

February 28, 2025 · 小茄墩