AI模型越便宜,芯片需求越疯狂:算力基础设施成最大赢家
高性价比模型引爆AI价格战
2024年6月30日,Anthropic发布Claude Sonnet 5,作为Sonnet系列中性能最强的中端模型,在SWE-bench Pro代理能力测试中得分63.2,仅比旗舰Opus 4.8低6分;而在研究生级推理测试GPQA-AAA v2上甚至反超后者。更关键的是定价:优惠期内输入每百万token仅2美元、输出10美元,而Opus 4.8对应为5美元和25美元——Sonnet 5以四至六成的价格实现了旗舰九成以上的能力。
降价千倍,需求万倍
过去三年,大模型API调用成本下降约1000倍。2022年GPT-4级别模型每千token约0.03美元,到2025年同等性能模型已降至极低水平。Google、DeepSeek、Meta等公司纷纷通过软件优化、内存复用、推测解码等技术压降推理成本。然而,成本下降并未抑制算力需求,反而激发爆炸性增长:2024年全球企业生成式AI支出为115亿美元,2025年飙升至370亿美元,同比增长320%。
企业AI应用从“试点”走向“全面渗透”
企业AI部署已从单点实验转向全业务覆盖。2023年中位企业仅运行1-2个AI应用,到2025年增至“数十个”。Uber在2026年4月就耗尽全年AI预算;AT&T日处理token量从18个月前的8亿增至270亿;某美国医保公司月token消耗从300万跃升至1.5亿以上。增长来自三重叠加:应用数量扩散、单应用交互深度增加(如客服对话触发多轮后续推理)、模型复杂度升级(从7B到70B+参数的多步代理)。
硬件价格暴涨,存储一年涨六倍
AI需求迅速传导至硬件层。2025年三季度起,DRAM与NAND Flash现货价累计涨幅超300%,DDR5颗粒单月涨幅一度突破90%。2026年一季度,DRAM合约价预期从55%-60%上修至90%-95%;NAND从33%-38%上修至55%-60%。消费级内存条如宏碁掠夺者32G DDR5 6000套条,三个月内价格从1300元飙至2700元。三星存储业务2025年Q4营业利润突破20万亿韩元(约合962亿元人民币),主因正是AI数据中心对HBM、企业级SSD和高密度DRAM的巨量采购。
杰文斯悖论在AI时代重演
1865年,经济学家威廉·斯坦利·杰文斯在《煤炭问题》中指出:蒸汽机效率提升后,英国煤炭总消费不降反升,因新应用场景不断涌现。如今AI领域再现相同逻辑——token成本降至千分之一,企业却将预算用于解决更复杂任务,催生“原来不存在的需求”。Nebius联合创始人Roman Chernin坦言:“每一次单位智能变便宜,我们不是减少消耗,而是增加消耗。”
毛利率正反馈加速硬件投入
AI API服务商的毛利率曲线异常陡峭:初期或仅10%,但随软件优化(如算子融合、量化、推测解码)持续压降推理成本,而定价调整滞后,毛利率可迅速攀升至90%。高利润驱动更多采购,采购摊薄单位成本,形成无天花板的正反馈循环。“你有DRAM就能卖token,没有DRAM就无法卖token”——这已成为行业共识。
模型可替代,算力不可绕
2024年6月,美国对Fable 5芯片实施出口管制仅三周后便解除,原因并非风险消失,而是亚洲团队已推出接近Mythos级别的替代模型,封锁失效。这一插曲印证:模型能力高度可替代,但底层硬件——GPU、DRAM、晶圆厂、光刻机——受物理定律约束,供给弹性极低。无论使用哪家模型,token最终都必须跑在实体芯片上。AI厂商的价格战,实质是将利润转移至数据中心、晶圆厂和存储产线。
未来五年7.6万亿美元投向AI基建
高盛预测,2026至2031年全球AI基础设施累计资本支出将达7.6万亿美元,其中2026年单年支出7650亿美元,2031年将升至1.6万亿美元。按NVIDIA VR200 Rubin GPU单价8.05万美元计算,英伟达将占据各期总算力支出的75%。即便ASIC部分替代GPU,只要算力需求富有弹性(即越便宜用得越多),总支出规模仍将持续扩张。
资本市场已提前定价
Claude Sonnet 5发布当日,美国半导体指数上涨近4%。闪迪年初至今股价暴涨857%,Bernstein于6月30日将其目标价上调至3000美元;AMD单日大涨7%创历史新高。GPU、存储、封装、数据中心设备厂商股价集体逼近新高,反映市场对“AI越便宜、芯片越贵”这一悖论的共识正在形成。






