正文

自动化悖论：AI越强大，人类越忙碌

编辑：RLinda发布时间：11小时前

最近，关于AI与工作的讨论几乎被一个问题主导：模型能力继续提升，白领岗位是否会被大规模替代？从代码生成、客服自动化到内容生产，Agent正在不断接管那些原本需要人类完成的知识工作。

Every CEO Dan Shipper提出一个相反的观察：越是自动化，人类要做的工作反而越多。Every是AI Agent的深度使用者，内部已经将Codex、Claude Code、Slack Agent、客服Agent等工具嵌入编码、写作、设计、客服和管理流程。

结果并不是员工被全面替代，而是工作形态发生了重组：工程师不再只是写代码，而是审查、重构和设计系统；编辑不再只是写稿，而是判断什么值得写、如何写得不一样；客服人员不再处理每一张基础工单，而是维护一个能够自动响应客户的系统。

AI擅长的是把过去已经沉淀下来的能力变得廉价：代码、文案、缩略图、客服回复、产品说明、研究报告，都可以被模型快速生成。但当这些能力变得人人可用，市场上随之出现的往往不是高质量的差异化产出，而是大量看起来相似、缺乏判断和语境感的“默认输出”。

因此，自动化并没有消灭专家，反而创造了更多需要专家介入的场景。当运营人员可以用AI提交代码，工程师就需要判断哪些代码值得合并；当市场人员可以几秒生成缩略图，设计师就需要判断什么才符合品牌和传播目标；当工程师也能写文章，编辑就需要把初稿变成真正有观点、有结构、可发布的内容。

作者进一步用基准测试解释了这种悖论。无论是Senior Engineer Benchmark，还是OpenAI的GDPval，模型得分衡量的都不是抽象意义上的“智能本身”，而是模型在某个特定问题框架内的表现。

即便模型越来越强，它追上的往往是人类画出的某条边界，而不是画出边界的人本身。AI可以执行目标、优化路径、提高效率，但只要它仍然是在回应人类设定的问题，它就仍然缺少真正意义上的主体性。

知识工作的未来，并不是人类从流程中消失，而是从执行者转向框架设计者、系统维护者、质量判断者和意义定义者。自动化之后，人类工作的价值并没有消失，只是变得更难、更靠前，也更依赖判断。

Every公司内部使用多种AI工具，如Codex、Claude Code等，来处理编码、写作、设计、客服等工作。这些工具不仅提高了工作效率，还改变了工作方式。

所谓Agent员工，就是你给它一个任务，它离开你的实时参与，独立产出一个答案、一个行动、一份报告、一份初稿，或者一个分流判断。这类Agent至少有两种形态：一种是“同事型Agent”，另一种是“嵌入式Agent”。

在Codex、Claude Code、Claude Cowork这类工具中的人类与Agent协同工作。这些工具不只是让你把任务交出去的地方，它们正在成为工作本身的操作系统。

这篇文章就是在Codex的内置浏览器里，用Proof写出来的。Codex会观察我正在写什么，并且可以随时启动一个子Agent，去完成我需要的任何任务。

我们内部搭建了一个基准测试，叫做Senior Engineer Benchmark，也就是“高级工程师基准测试”。顾名思义，它用来测试前沿模型在高级工程师级别编码任务上的能力。

在芝诺悖论中，一只乌龟在赛跑中战胜了希腊最快的跑者阿喀琉斯。因为乌龟跑得慢，所以它先出发一段距离。当阿喀琉斯跑到乌龟最初的位置时，乌龟已经又向前移动了一点。

拉比Hanokh讲过这样一个故事：从前有一个非常愚笨的人。他每天早上起床后，总是很难找到自己的衣服。以至于晚上睡觉前，一想到第二天醒来又要经历这番麻烦，他几乎都不敢上床。