正文

OpenAI为何在Claude Code的竞赛中处于追赶地位？

编辑：MadmanCoins发布时间：7小时前

OpenAI的战略反思

OpenAI 首席执行官 Sam Altman 把双腿盘在办公椅上，仰头望着天花板，像是在思考某个尚未成形的答案。某种程度上，这也与环境有关。

OpenAI 位于旧金山 Mission Bay 的新总部，是一座由玻璃与浅色木材构成的现代建筑，气质近乎「科技圣殿」。前台后的展示架上摆放着介绍「AI 时代」（Eras of AI）的手册，仿佛在描绘一条通往技术启示的路径。楼梯墙面上贴满了人工智能发展的里程碑海报，其中一张记录着这样一个时刻：成千上万名观众通过直播见证，一台机器在《Dota 2》比赛中击败顶级电竞战队。走廊里，研究员穿着印有标语的团队周边衫来来往往，其中一件写着：「好的研究需要时间。」当然，理想情况下，不必太久。

AI编程革命中的落后者

我们坐在一间巨大的会议室里。我向 Altman 抛出的问题，与正在席卷行业的 AI 编程革命有关，以及为什么 OpenAI 似乎并未在这一波浪潮中占据领先位置。

如今，数以百万计的软件工程师已经开始将部分编程工作交给 AI 处理，这让硅谷许多人第一次真正直面一个现实：自动化可能会触及他们自己的岗位。编程代理（coding agents）也因此成为少数几个企业愿意为 AI 支付高价的应用场景之一。按理说，这样的时刻完全可能，甚至应该成为 OpenAI 楼梯墙上海报中的下一次「胜利时刻」。但现在，占据头条位置的名字却并不是它。

这家公司的对手是 Anthropic，一家由前 OpenAI 成员创立的 AI 公司。凭借其编程代理产品 Claude Code，Anthropic 获得了爆发式增长。公司在 2 月披露，该产品已贡献近五分之一的业务规模，对应年化收入超过 25 亿美元。相比之下，据一位知情人士透露，截至 1 月底，OpenAI 自家的编程产品 OpenAI Codex 的年化收入仅略高于 10 亿美元。

OpenAI的战略调整

问题在于：为什么在这场 AI 编程竞赛中，OpenAI 反而落在了后面？

「先发优势的价值非常大。」Sam Altman 沉思片刻后说道，「这一点，我们在 ChatGPT 上已经体验过。」

不过，在他看来，现在正是 OpenAI 全面发力 AI 编程的时机。他认为，公司现有的模型能力已经足够强大，可以支撑高度复杂的编程代理（coding agents）。当然，这样的能力并非偶然，公司为此投入了数十亿美元用于模型训练。

「这将会是一门巨大的生意，」Altman 说，「不仅因为它本身带来的经济价值，也因为编程所能释放的通用生产力。」他停顿了一下，又补充道：「我很少轻易使用这个词，但我认为，这很可能是那种规模达到数万亿美元的市场之一。」

Sam Altman，OpenAI 首席执行官。摄影：Mark Jayson Quines。

内部故事与资源分配

尽管 Altman 以一种从容不迫的姿态做出自信判断，过去几年公司内部的真实情况却要复杂得多。为了了解更完整的内部故事，我采访了 30 多位知情人士，包括在公司批准下接受采访的现任 OpenAI 高管与员工，以及一些在匿名条件下介绍公司内部运作情况的前员工。综合这些叙述，可以看到一个并不常见的局面：OpenAI 正在奋力追赶。

时间回到 2021 年。当时，Altman 和其他 OpenAI 高管邀请《WIRED》记者 Steven Levy 来到他们位于旧金山 Mission 区的早期办公室，观看一项新技术演示。这是一项基于 GPT-3 衍生出来的项目，使用来自 GitHub 的大量开源代码进行训练。

在现场演示中，高管们展示了这款名为 OpenAI Codex 的工具如何接收自然语言指令，并生成简单的代码片段。

「它实际上可以在计算机世界里替你执行操作，」当时，OpenAI 总裁兼联合创始人 Greg Brockman 这样解释，「你拥有的是一个能够真正执行命令的系统。」即便在当时，OpenAI 的研究人员也已经普遍认为，Codex 将成为构建「超级助手」（super assistant）的关键技术。

Greg Brockman，OpenAI 总裁。摄影：Mark Jayson Quines。

Anthropic的成功之路

相比之下，Anthropic 选择了一条不同路径。虽然该公司同样在开发聊天机器人和多模态模型，但它似乎更早意识到编程能力的潜力。在最近的一档播客中，Brockman 也承认，Anthropic 从很早阶段就「高度专注于编程能力」。他指出，Anthropic 在训练模型时不仅使用了学术竞赛中的复杂编程题，还加入了来自真实代码仓库的大量「混乱」代码问题。

「这是我们后来才意识到的一课，」Brockman 说。

2024 年初，Anthropic 开始使用这些真实代码仓库数据训练 Claude 3.5 Sonnet。当该模型在 6 月发布时，许多用户对其编程能力印象深刻。

Andrey Mishchenko，OpenAI Codex 研究负责人。摄影：Mark Jayson Quines。

OpenAI的反击策略

随着 Cursor 的人气不断上升，OpenAI 一度试图收购这家初创公司。但据多位接近该公司的消息人士透露，Cursor 的创始团队在谈判尚未深入之前就拒绝了这一提议。他们认为 AI 编程行业潜力巨大，因此希望继续保持独立发展。

当时，OpenAI 正在训练其首个所谓的「推理模型」，OpenAI o1。这类模型能够在给出答案之前，对问题进行逐步推理。OpenAI 在发布时表示，该模型在「准确生成与调试复杂代码」方面表现尤为突出。

Mishchenko 解释说，AI 模型之所以在编程能力上取得明显进步，一个重要原因在于：编程是一种「可验证任务」（verifiable task）。代码要么能运行，要么不能运行，这为模型提供了非常明确的反馈信号。一旦出错，系统就能迅速知道哪里出了问题。OpenAI 正是利用这种反馈循环，不断让 o1 在更复杂的编程问题上进行训练。

Thibault Sottiaux，OpenAI Codex 负责人。摄影：Mark Jayson Quines。

未来的展望与挑战

到 2024 年 12 月，OpenAI 内部已经出现多个小团队开始专注于 AI 编程代理。其中一个团队由 Mishchenko 与 Thibault Sottiaux 共同领导。Sottiaux 曾任职于 Google DeepMind，如今是 OpenAI 的 Codex 负责人。

起初，他们对编程代理的兴趣主要来自内部研发需求，希望利用 AI 自动化完成大量重复性的工程工作，例如管理模型训练任务、监控 GPU 集群运行状态等。

另一项并行的尝试则由 Alexander Embiricos 主导。他此前负责 OpenAI 的多模态代理项目，如今担任 Codex 的产品负责人。Embiricos 曾开发过一个名为 Jam 的演示项目，并在公司内部迅速传播开来。

Alexander Embiricos，OpenAI Codex 产品负责人。摄影：Mark Jayson Quines。

Greg Brockman 衡量 AI 能力最喜欢的一种方式，是他自己设计的一款小游戏，「反向图灵测试」（Reverse Turing Test）。几年前他亲手写下了这个游戏的代码，如今则会把任务交给 AI 代理，从零开始重新实现。

游戏规则很简单：两名人类玩家分别坐在不同电脑前，每个人屏幕上都会看到两个聊天窗口。其中一个窗口连接另一名人类玩家，另一个则连接 AI。玩家需要猜出哪个窗口是 AI，同时又要设法让对手误以为自己才是 AI。

Brockman 说，在去年大部分时间里，OpenAI 最强的模型要花上数小时才能搭建出这样一个游戏，而且过程中还需要大量明确的人类指令和协助。但到去年 12 月，Codex 已经能够通过一条精心设计的提示词（prompt），直接生成一个完全可运行的版本，底层使用的是新的 GPT-5.2 模型。

Katy Shi，OpenAI 研究员。摄影：Mark Jayson Quines。

社会影响与未来方向

在 OpenAI 负责研究 Codex 模型行为的 Katy Shi 表示，虽然有人把 Codex 的默认风格形容为「干巴巴的面包」（dry bread），但越来越多用户反而开始欣赏这种不刻意讨好的交流方式。「很多工程工作，本质上就是能够接受批评性的反馈，而不会把它当成冒犯。」她说。

与此同时，一些大型企业也已经开始采用 Codex。OpenAI 应用业务 CEO Fidji Simo 表示：「ChatGPT 已经成为 AI 的代名词，这让我们在 B2B 市场拥有巨大优势。企业更愿意部署员工已经熟悉的技术。」她补充说，OpenAI 销售 Codex 的核心策略，是把它与 ChatGPT 以及其他 OpenAI 产品一起打包提供。

Amelia Glaese，OpenAI 研究副总裁兼对齐负责人。摄影：Mark Jayson Quines。

原文链接