正文

林俊旸离职阿里首次发文：智能体时代正在到来

编辑：NamchaTa发布时间：12小时前

作者介绍与背景

作者：林俊旸前通义千问Qwen负责人，阿里最年轻P10。2026年3月从阿里离职

原表标题《From "Reasoning" Thinking to "Agentic" Thinking》

过去两年的技术突破：推理型思维的兴起

过去两年重塑了我们评估模型的方式以及对它们的期望。OpenAI的o1证明了「思考」可以成为一种一等能力(first-class capability)，一种你可以专门为其训练并向用户开放的能力。DeepSeek-R1则证明了，这种推理风格的后训练完全可以在最初的顶尖实验室之外被复制和扩展。OpenAI将o1描述为一个利用强化学习训练出来的「在回答前先思考」的模型；而DeepSeek则将R1定位为一个能与o1正面竞争的开源推理模型。

下一步是什么？代理型思维的到来

那个阶段意义重大。但2025年上半年的焦点基本集中在「推理型思维」上：如何让模型投入更多的推理期算力，如何用更强的奖励信号来训练它们，以及如何呈现或控制这种额外的推理投入。现在的问题是，下一步是什么？我相信答案是「代理型思维」(agentic thinking)：为了行动而思考，在与环境互动的过程中，根据来自现实世界的反馈不断更新计划。

o1和R1的崛起教会了我们什么

第一波推理模型教会了我们：如果想在语言模型中扩展强化学习(RL)，我们就需要确定性的、稳定的且可扩展的反馈信号。数学、代码、逻辑等可验证的领域之所以成为核心，是因为在这些场景下的奖励信号远比常规的偏好监督强烈得多。它们让强化学习能够针对「正确性」而非「看似合理性」进行优化。基础设施随之成为重中之重。

融合思考与指令的挑战

在2025年初，我们Qwen团队的许多人脑海中都有一个宏大的愿景：理想的系统应该将「思考」和「指令」两种模式统一起来。然而，难点在于数据。这两种模式的数据分布和行为目标有着本质的区别。在实践中，将两者剥离依然具有吸引力。

Anthropic的方向：强调目标效用

Anthropic在发布Claude 3.7和Claude 4时的对外宣传显得相当克制。他们将重点放在了集成推理、用户可控的思考预算、真实世界任务、编码质量等方面。这种对「目标效用」的强调指向了一个更宏大的趋势：我们正在从训练模型的时代，迈向训练代理(Agents)的时代。

代理型思维的真正含义

代理型思维是一个截然不同的优化目标。评估「推理型思维」的标准通常是得出最终答案前内部审议的质量，而评估「代理型思维」的标准则是模型在与环境互动的过程中能否持续取得实质性进展。

代理型强化学习的基建难度

一旦目标从「解决基准测试题」转变为「完成互动性任务」，RL的技术栈就会发生巨变。传统推理RL所用的基础设施已经远远不够了。这催生了一个全新的系统级需求：训练和推理必须更加彻底地解耦。

下一个前沿领域：更加实用的思考力

我个人的预期是，代理型思维将成为未来主导的思考形式。它最终会淘汰掉大部分老旧的「静态独白版」推理思维。训练此类系统最大的痛点在于「奖励作弊」(reward hacking)。

结论：从模型到代理的行业跃迁

推理浪潮的第一阶段确立了一个铁律：只要反馈信号足够可靠且基础设施撑得住，在语言模型之上叠加强化学习就能催生出发生质变的认知能力。而更深远的行业跃迁，正在从「推理型思维」转向「代理型思维」：即从单纯地多想一会儿，转向为了采取行动而思考。