Anthropic发布Claude Opus 4.6:新增多智能体团队功能,估值达3500亿美元
Anthropic推出Claude Opus 4.6,具备100万令牌上下文窗口和多智能体协作功能
Anthropic发布了Claude Opus 4.6,该模型的上下文窗口扩展至100万令牌,并引入了多智能体团队协作功能。这一发布距离该公司估值达3500亿美元的要约收购仅数天,引发了科技股市场的震动。
Anthropic于周四推出了Claude Opus 4.6,这一模型升级将其上下文窗口提升了五倍,达到100万令牌,同时引入了自主多智能体协作功能。此次发布正值该公司估值达到3500亿美元的要约收购引发科技股抛售潮之后。
为何这次升级至关重要
投资者因对AI竞争的担忧,在2月4日抛售了大量股票。而如今,Anthropic展示了其为何能获得如此高估值的原因:Opus 4.6在GDPval-AA基准测试中比OpenAI的GPT-5.2高出144个Elo点。GDPval-AA是一项衡量金融、法律和技术领域经济价值知识工作的基准。
三大核心升级
对于企业用户而言,有三项升级尤为突出。
首先,Opus 4.6的100万令牌上下文窗口(目前处于测试阶段)是Opus 4.5的20万令牌的五倍。在MRCR v2(一项“大海捞针”检索测试)中,Opus 4.6得分为76%,而Sonnet 4.5仅为18.5%。这不仅仅是渐进式的改进,而是针对文档密集型工作流的能力飞跃。
其次,Claude Code中的“智能体团队”功能允许开发者启动多个并行工作的AI智能体。早期合作伙伴Invariant Labs报告称,Opus 4.6“在一天内自主关闭了13个问题,并将12个问题分配给合适的团队成员,管理了一个约50人的组织,覆盖6个代码库”。该模型能够处理产品和组织决策,同时知道何时需要将任务升级到人类。
最后,为了更好地集成企业需求,Anthropic增加了对PowerPoint的支持(研究预览版),并升级了Excel功能。该模型现在可以摄取非结构化数据,无需指导即可推断结构,并一次性执行多步骤更改。
基准性能表现
Opus 4.6在Terminal-Bench 2.0的自主编码测试中领先,并在多学科推理测试“人类终极考试”中位居榜首。它还在OpenAI的BrowseComp测试中击败了所有其他模型,该测试用于评估在线查找难以获取信息的能力。
与前代相比,Opus 4.6在GDPval-AA上的Elo评分提高了190点,表明其在财务分析、法律审查和技术文档等实际创收任务上取得了显著进步。
价格保持不变,输入和输出分别为每百万令牌5美元和25美元。对于超过20万令牌的提示,高级定价为10美元/37.5美元。
安全性声明与市场竞争定位
Anthropic表示,Opus 4.6“是近期Claude模型中过度拒绝率最低的”,同时保持了与Opus 4.5相当的对齐性。公司还新增了六种网络安全探测器,以检测潜在的滥用行为,承认该模型的增强能力具有双面性。
此次发布使Anthropic直接与OpenAI在企业AI竞赛中展开竞争。随着谷歌的Gemini和xAI的Grok也在争夺企业合同,Opus 4.6的多智能体功能和扩展的上下文窗口代表了Anthropic的赌注:自主AI工作流——而不仅仅是聊天机器人——将定义企业采用的下一阶段。
立即可用
Opus 4.6现已在claude.ai、API以及主要云平台上提供。开发者可以通过claude-opus-4-6模型标识符访问。






