OpenAI为何在Claude Code的竞赛中处于追赶地位?
OpenAI的战略反思
OpenAI 首席执行官 Sam Altman 把双腿盘在办公椅上,仰头望着天花板,像是在思考某个尚未成形的答案。某种程度上,这也与环境有关。
OpenAI 位于旧金山 Mission Bay 的新总部,是一座由玻璃与浅色木材构成的现代建筑,气质近乎「科技圣殿」。前台后的展示架上摆放着介绍「AI 时代」(Eras of AI)的手册,仿佛在描绘一条通往技术启示的路径。楼梯墙面上贴满了人工智能发展的里程碑海报,其中一张记录着这样一个时刻:成千上万名观众通过直播见证,一台机器在《Dota 2》比赛中击败顶级电竞战队。走廊里,研究员穿着印有标语的团队周边衫来来往往,其中一件写着:「好的研究需要时间。」当然,理想情况下,不必太久。
AI编程革命中的落后者
我们坐在一间巨大的会议室里。我向 Altman 抛出的问题,与正在席卷行业的 AI 编程革命有关,以及为什么 OpenAI 似乎并未在这一波浪潮中占据领先位置。
如今,数以百万计的软件工程师已经开始将部分编程工作交给 AI 处理,这让硅谷许多人第一次真正直面一个现实:自动化可能会触及他们自己的岗位。编程代理(coding agents)也因此成为少数几个企业愿意为 AI 支付高价的应用场景之一。按理说,这样的时刻完全可能,甚至应该成为 OpenAI 楼梯墙上海报中的下一次「胜利时刻」。但现在,占据头条位置的名字却并不是它。
这家公司的对手是 Anthropic,一家由前 OpenAI 成员创立的 AI 公司。凭借其编程代理产品 Claude Code,Anthropic 获得了爆发式增长。公司在 2 月披露,该产品已贡献近五分之一的业务规模,对应年化收入超过 25 亿美元。相比之下,据一位知情人士透露,截至 1 月底,OpenAI 自家的编程产品 OpenAI Codex 的年化收入仅略高于 10 亿美元。
OpenAI的战略调整
问题在于:为什么在这场 AI 编程竞赛中,OpenAI 反而落在了后面?
「先发优势的价值非常大。」Sam Altman 沉思片刻后说道,「这一点,我们在 ChatGPT 上已经体验过。」
不过,在他看来,现在正是 OpenAI 全面发力 AI 编程的时机。他认为,公司现有的模型能力已经足够强大,可以支撑高度复杂的编程代理(coding agents)。当然,这样的能力并非偶然,公司为此投入了数十亿美元用于模型训练。
「这将会是一门巨大的生意,」Altman 说,「不仅因为它本身带来的经济价值,也因为编程所能释放的通用生产力。」他停顿了一下,又补充道:「我很少轻易使用这个词,但我认为,这很可能是那种规模达到数万亿美元的市场之一。」
Sam Altman,OpenAI 首席执行官。摄影:Mark Jayson Quines。
内部故事与资源分配
尽管 Altman 以一种从容不迫的姿态做出自信判断,过去几年公司内部的真实情况却要复杂得多。为了了解更完整的内部故事,我采访了 30 多位知情人士,包括在公司批准下接受采访的现任 OpenAI 高管与员工,以及一些在匿名条件下介绍公司内部运作情况的前员工。综合这些叙述,可以看到一个并不常见的局面:OpenAI 正在奋力追赶。
时间回到 2021 年。当时,Altman 和其他 OpenAI 高管邀请《WIRED》记者 Steven Levy 来到他们位于旧金山 Mission 区的早期办公室,观看一项新技术演示。这是一项基于 GPT-3 衍生出来的项目,使用来自 GitHub 的大量开源代码进行训练。
在现场演示中,高管们展示了这款名为 OpenAI Codex 的工具如何接收自然语言指令,并生成简单的代码片段。
「它实际上可以在计算机世界里替你执行操作,」当时,OpenAI 总裁兼联合创始人 Greg Brockman 这样解释,「你拥有的是一个能够真正执行命令的系统。」即便在当时,OpenAI 的研究人员也已经普遍认为,Codex 将成为构建「超级助手」(super assistant)的关键技术。
Greg Brockman,OpenAI 总裁。摄影:Mark Jayson Quines。
Anthropic的成功之路
相比之下,Anthropic 选择了一条不同路径。虽然该公司同样在开发聊天机器人和多模态模型,但它似乎更早意识到编程能力的潜力。在最近的一档播客中,Brockman 也承认,Anthropic 从很早阶段就「高度专注于编程能力」。他指出,Anthropic 在训练模型时不仅使用了学术竞赛中的复杂编程题,还加入了来自真实代码仓库的大量「混乱」代码问题。
「这是我们后来才意识到的一课,」Brockman 说。
2024 年初,Anthropic 开始使用这些真实代码仓库数据训练 Claude 3.5 Sonnet。当该模型在 6 月发布时,许多用户对其编程能力印象深刻。
Andrey Mishchenko,OpenAI Codex 研究负责人。摄影:Mark Jayson Quines。
OpenAI的反击策略
随着 Cursor 的人气不断上升,OpenAI 一度试图收购这家初创公司。但据多位接近该公司的消息人士透露,Cursor 的创始团队在谈判尚未深入之前就拒绝了这一提议。他们认为 AI 编程行业潜力巨大,因此希望继续保持独立发展。
当时,OpenAI 正在训练其首个所谓的「推理模型」,OpenAI o1。这类模型能够在给出答案之前,对问题进行逐步推理。OpenAI 在发布时表示,该模型在「准确生成与调试复杂代码」方面表现尤为突出。
Mishchenko 解释说,AI 模型之所以在编程能力上取得明显进步,一个重要原因在于:编程是一种「可验证任务」(verifiable task)。代码要么能运行,要么不能运行,这为模型提供了非常明确的反馈信号。一旦出错,系统就能迅速知道哪里出了问题。OpenAI 正是利用这种反馈循环,不断让 o1 在更复杂的编程问题上进行训练。
Thibault Sottiaux,OpenAI Codex 负责人。摄影:Mark Jayson Quines。
未来的展望与挑战
到 2024 年 12 月,OpenAI 内部已经出现多个小团队开始专注于 AI 编程代理。其中一个团队由 Mishchenko 与 Thibault Sottiaux 共同领导。Sottiaux 曾任职于 Google DeepMind,如今是 OpenAI 的 Codex 负责人。
起初,他们对编程代理的兴趣主要来自内部研发需求,希望利用 AI 自动化完成大量重复性的工程工作,例如管理模型训练任务、监控 GPU 集群运行状态等。
另一项并行的尝试则由 Alexander Embiricos 主导。他此前负责 OpenAI 的多模态代理项目,如今担任 Codex 的产品负责人。Embiricos 曾开发过一个名为 Jam 的演示项目,并在公司内部迅速传播开来。
Alexander Embiricos,OpenAI Codex 产品负责人。摄影:Mark Jayson Quines。
Greg Brockman 衡量 AI 能力最喜欢的一种方式,是他自己设计的一款小游戏,「反向图灵测试」(Reverse Turing Test)。几年前他亲手写下了这个游戏的代码,如今则会把任务交给 AI 代理,从零开始重新实现。
游戏规则很简单:两名人类玩家分别坐在不同电脑前,每个人屏幕上都会看到两个聊天窗口。其中一个窗口连接另一名人类玩家,另一个则连接 AI。玩家需要猜出哪个窗口是 AI,同时又要设法让对手误以为自己才是 AI。
Brockman 说,在去年大部分时间里,OpenAI 最强的模型要花上数小时才能搭建出这样一个游戏,而且过程中还需要大量明确的人类指令和协助。但到去年 12 月,Codex 已经能够通过一条精心设计的提示词(prompt),直接生成一个完全可运行的版本,底层使用的是新的 GPT-5.2 模型。
Katy Shi,OpenAI 研究员。摄影:Mark Jayson Quines。
社会影响与未来方向
在 OpenAI 负责研究 Codex 模型行为的 Katy Shi 表示,虽然有人把 Codex 的默认风格形容为「干巴巴的面包」(dry bread),但越来越多用户反而开始欣赏这种不刻意讨好的交流方式。「很多工程工作,本质上就是能够接受批评性的反馈,而不会把它当成冒犯。」她说。
与此同时,一些大型企业也已经开始采用 Codex。OpenAI 应用业务 CEO Fidji Simo 表示:「ChatGPT 已经成为 AI 的代名词,这让我们在 B2B 市场拥有巨大优势。企业更愿意部署员工已经熟悉的技术。」她补充说,OpenAI 销售 Codex 的核心策略,是把它与 ChatGPT 以及其他 OpenAI 产品一起打包提供。
Amelia Glaese,OpenAI 研究副总裁兼对齐负责人。摄影:Mark Jayson Quines。
原文链接






