正文

NVIDIA Blackwell架构在金融AI基准测试中实现3.2倍性能提升

编辑:CryptoPatel发布时间:4小时前

NVIDIA GB200 NVL72创下STAC-AI金融交易推理新纪录

NVIDIA的GB200 NVL72在金融交易领域的大型语言模型(LLM)推理测试中,以高达3.2倍的性能超越了上一代Hopper架构,树立了新的STAC-AI记录。

NVIDIA Blackwell Smashes Finance AI Benchmark With 3.2x Speed Gains

NVIDIA的Blackwell架构在STAC-AI基准测试中取得了有史以来最快的成绩。GB200 NVL72在单GPU性能上比上一代Hopper架构提升了3.2倍。这一成绩对那些希望通过非结构化数据分析获取超额收益的交易公司尤为重要。

真实场景测试展现卓越性能

战略技术分析中心(STAC)在过去15年中一直致力于金融技术工作负载的基准测试。此次测试基于真实的EDGAR 10-K文件——这些密集的年度报告是量化基金解析投资信号的重要来源。运行Meta的Llama 3.1模型时,GB200 NVL72在中等长度的金融提示处理中达到了每秒37,480个单词的速度,而双GH200系统的速度仅为8,237 WPS。

数据对比凸显性能飞跃

在使用EDGAR4数据集运行Llama 3.1 8B模型时,Blackwell每秒处理224个请求,而Hopper为51.5 RPS,系统级性能提升了4.3倍。在计算密集型任务中,例如使用70B参数模型处理长上下文的EDGAR5文件时,吞吐量从41.4 WPS跃升至150 WPS。

技术革新驱动性能突破

这些性能提升的背后,得益于NVIDIA全新的NVFP4量化格式,该格式专为Blackwell设计,能够在不牺牲精度的情况下将模型压缩到更小的内存占用空间。相比之下,Hopper仅支持FP8量化,而Blackwell通过四比特精度实现了显著的吞吐量优势。

实时响应助力交易决策

批量处理是一回事,但实时交易决策需要快速响应。在这一点上,即使在接近最大吞吐量的情况下,Blackwell依然保持了较低的反应时间(类似于首次生成标记的时间)和更好的单词间延迟。在大多数测试场景中,GB200 NVL72在响应性指标上始终优于GH200。

对于那些在财报电话会议中进行情绪分析或解析突发新闻的交易部门来说,这种低延迟优势直接转化为更快的决策能力。此次基准测试还涵盖了包括分词在内的完整推理管道,这是实际部署中不可或缺的环节。

市场背景与行业影响

3月5日,NVIDIA股价收于181.41美元,当日上涨1.1%,公司市值达到4.42万亿美元。Blackwell架构在2024年的GTC大会上发布,专为生成式AI工作负载设计。首席执行官黄仁勋将其定位为“推动新一轮工业革命”的核心技术,而这些基准测试结果为这一主张提供了有力支持。

GB200 Grace Blackwell超级芯片结合了两个B200 GPU和一个Grace CPU,配备了重新设计的AI Tensor核心和第五代NVLink,可扩展至576个GPU。此前的MLPerf结果显示,在Llama 3.1 405B模型训练中性能提升了2.2倍,而这些STAC-AI数据进一步证实了其在推理方面的类似优势。

Hopper架构仍具价值

值得注意的是,已有三年历史的Hopper架构仍然表现不俗。对于已经部署GH200的交易公司来说,现有系统并未立即过时。然而,对于新建项目或推理速度直接影响收益的公司而言,Blackwell的经济效益显得尤为吸引人——NVIDIA声称其LLM推理运营成本相比前几代产品降低了25倍。

完整的STAC报告,包括各种到达率下的详细交互模式指标,可通过STAC官方渠道获取。金融机构在评估AI基础设施升级时,现在有了经过审计的第三方数据作为采购决策的依据。