正文

Token预算战争：企业AI迈入「算账时代」

编辑：星球日报发布时间：5小时前

过去两年，许多公司推动员工使用AI，更多是为了跟上技术趋势和竞争压力。但当AI推理成本从实验预算变成持续性的运营支出，CEO和CFO开始追问一个更现实的问题：AI到底创造了多少价值？每一美元token成本，换来了什么实际结果？这正是「Token预算战争」的核心。

文章指出，AI的使用量并不等于价值。SaaS时代，使用量通常意味着软件被采用；但AI时代，token消耗只能说明「计价器在运行」。同一个工作流，可能因为提示词、上下文、模型选择和重试次数不同，产生数倍成本差异。账单变高，既可能是AI真正在干活，也可能是系统在无效折腾。

企业AI的下一阶段，关键不只是模型能力，而是能否把token成本和业务结果对应起来。第一阶段证明了AI可以完成工作；第二阶段要回答的是：这些工作到底值不值得付费。董事会里的问题正在从「AI有没有用」，转向「AI到底在哪里真正形成杠杆」。

关于token所有权的争夺之所以迅速升温，是因为它正撞上一种延续了三十年的高管本能：大团队意味着大职位、大职责范围和更大的权力。但当智能成为稀缺资源，新的标志就变成了：你能调度多少智能。AI支出本质上正在与人工成本竞争。

大多数AI预算申请，本质上是三类主张之一：替代外包劳动力，替代内部劳动力，或创造新的收入。然而，推理成本更复杂，因为一个任务最终完成的成本，取决于系统在执行过程中如何运行。讨论正在转向：完成一个结果的成本是多少？比如每个已解决工单、每笔已处理理赔、每份已审合同等。

SaaS的逻辑是使用量被视为价值的代理指标，但AI打破了这一点。信号和噪音使用的是同一个计量单位。token账单上升，可能意味着真正的工作正在完成；但也可能意味着算力正在被浪费在糟糕的提示词、无关上下文、不必要的工具调用上。

主要有三点：重试长尾、上下文膨胀和路由选择。例如，如果一个agent第一次就正确完成工作流的概率是p，那么每个已解决工作流的预期token消耗大致会按照T/p扩大。上下文长度翻倍，推理成本大致会变为四倍。而路由选择则可能导致简单任务被交给前沿模型，进一步推高成本。

非软件企业会更深刻地感受到这个问题，因为它们的工作是运营性的。这些工作流过去通常用人工、周期时间、SLA达成率和错误率来衡量，而且往往有更高要求，需要在审计中站得住脚。

企业需要一个转换层，把推理支出与完成的工作、产生的业务结果连接起来。这个层必须回答三个问题：这个工作流的真实成本是多少？agent的执行轨迹中哪些部分真正重要？这项工作是否改变了运营模式？

为了把一个token与一个结果连接起来，企业必须捕捉中间发生的一切。起初，公司会捕捉这些轨迹，是为了证明支出的合理性。但一旦这些轨迹被捕捉下来，它们就会比成本报告本身更有价值，因为它们会变成一份持久记录，记录组织实际上是如何做决策的。

如果推理成为客户运营模型中的一种按量计费资源，那么每一美元都必须证明自己值得花。谁掌握了token到结果的归因，谁就能做出分配决策：哪些工作流值得更多算力，哪些应该设限，哪些应该切换到更便宜的模型。

正如查理·芒格所说：给我看激励机制，我就能告诉你结果。