正文

AI模型越便宜，芯片需求越疯狂：算力基础设施成最大赢家

编辑：星球日报发布时间：8小时前

高性价比模型引爆AI价格战

2024年6月30日，Anthropic发布Claude Sonnet 5，作为Sonnet系列中性能最强的中端模型，在SWE-bench Pro代理能力测试中得分63.2，仅比旗舰Opus 4.8低6分；而在研究生级推理测试GPQA-AAA v2上甚至反超后者。更关键的是定价：优惠期内输入每百万token仅2美元、输出10美元，而Opus 4.8对应为5美元和25美元——Sonnet 5以四至六成的价格实现了旗舰九成以上的能力。

降价千倍，需求万倍

过去三年，大模型API调用成本下降约1000倍。2022年GPT-4级别模型每千token约0.03美元，到2025年同等性能模型已降至极低水平。Google、DeepSeek、Meta等公司纷纷通过软件优化、内存复用、推测解码等技术压降推理成本。然而，成本下降并未抑制算力需求，反而激发爆炸性增长：2024年全球企业生成式AI支出为115亿美元，2025年飙升至370亿美元，同比增长320%。

企业AI应用从“试点”走向“全面渗透”

企业AI部署已从单点实验转向全业务覆盖。2023年中位企业仅运行1-2个AI应用，到2025年增至“数十个”。Uber在2026年4月就耗尽全年AI预算；AT&T日处理token量从18个月前的8亿增至270亿；某美国医保公司月token消耗从300万跃升至1.5亿以上。增长来自三重叠加：应用数量扩散、单应用交互深度增加（如客服对话触发多轮后续推理）、模型复杂度升级（从7B到70B+参数的多步代理）。

硬件价格暴涨，存储一年涨六倍

AI需求迅速传导至硬件层。2025年三季度起，DRAM与NAND Flash现货价累计涨幅超300%，DDR5颗粒单月涨幅一度突破90%。2026年一季度，DRAM合约价预期从55%-60%上修至90%-95%；NAND从33%-38%上修至55%-60%。消费级内存条如宏碁掠夺者32G DDR5 6000套条，三个月内价格从1300元飙至2700元。三星存储业务2025年Q4营业利润突破20万亿韩元（约合962亿元人民币），主因正是AI数据中心对HBM、企业级SSD和高密度DRAM的巨量采购。

杰文斯悖论在AI时代重演

1865年，经济学家威廉·斯坦利·杰文斯在《煤炭问题》中指出：蒸汽机效率提升后，英国煤炭总消费不降反升，因新应用场景不断涌现。如今AI领域再现相同逻辑——token成本降至千分之一，企业却将预算用于解决更复杂任务，催生“原来不存在的需求”。Nebius联合创始人Roman Chernin坦言：“每一次单位智能变便宜，我们不是减少消耗，而是增加消耗。”

毛利率正反馈加速硬件投入

AI API服务商的毛利率曲线异常陡峭：初期或仅10%，但随软件优化（如算子融合、量化、推测解码）持续压降推理成本，而定价调整滞后，毛利率可迅速攀升至90%。高利润驱动更多采购，采购摊薄单位成本，形成无天花板的正反馈循环。“你有DRAM就能卖token，没有DRAM就无法卖token”——这已成为行业共识。

模型可替代，算力不可绕

2024年6月，美国对Fable 5芯片实施出口管制仅三周后便解除，原因并非风险消失，而是亚洲团队已推出接近Mythos级别的替代模型，封锁失效。这一插曲印证：模型能力高度可替代，但底层硬件——GPU、DRAM、晶圆厂、光刻机——受物理定律约束，供给弹性极低。无论使用哪家模型，token最终都必须跑在实体芯片上。AI厂商的价格战，实质是将利润转移至数据中心、晶圆厂和存储产线。

未来五年7.6万亿美元投向AI基建

高盛预测，2026至2031年全球AI基础设施累计资本支出将达7.6万亿美元，其中2026年单年支出7650亿美元，2031年将升至1.6万亿美元。按NVIDIA VR200 Rubin GPU单价8.05万美元计算，英伟达将占据各期总算力支出的75%。即便ASIC部分替代GPU，只要算力需求富有弹性（即越便宜用得越多），总支出规模仍将持续扩张。

资本市场已提前定价

Claude Sonnet 5发布当日，美国半导体指数上涨近4%。闪迪年初至今股价暴涨857%，Bernstein于6月30日将其目标价上调至3000美元；AMD单日大涨7%创历史新高。GPU、存储、封装、数据中心设备厂商股价集体逼近新高，反映市场对“AI越便宜、芯片越贵”这一悖论的共识正在形成。