正文

NVIDIA Run:ai v2.24 推出基于时间的公平调度功能,优化AI工作负载的GPU资源分配

编辑:AlgoBuddy发布时间:2026-01-29 01:38:41

解决共享GPU集群中的资源争用问题

NVIDIA 最新发布的 Run:ai v2.24 引入了基于时间的公平调度模式,解决了在共享 GPU 集群上运行 AI 工作负载时的一个长期痛点:小型、高频任务团队占用过多资源,导致需要突发容量进行大规模训练的团队无法获得足够的资源。

该功能基于 NVIDIA 的开源 KAI 调度器构建,为调度系统引入了“记忆”能力。调度器不再仅仅根据当前状态做出分配决策,而是跟踪历史资源消耗并相应调整队列优先级。资源占用过多的团队将被降低优先级,而等待已久的团队则会被提升优先级。

为什么这对AI运营至关重要

这个问题听起来技术性很强,但对业务有着实际影响。想象一下,两个机器学习团队共享一个拥有 100 个 GPU 的集群。团队 A 持续运行计算机视觉训练任务,而团队 B 偶尔需要 60 个 GPU 进行客户反馈分析后的后训练任务。在传统的公平共享调度下,团队 B 的大型任务可能会无限期地排队——每次有资源释放时,团队 A 的小型任务总是优先占用,因为它们更适合可用容量。

NVIDIA 的新型时间公平共享调度防止了 Kubernetes 集群中的 GPU 资源占用,解决了企业 AI 部署的关键瓶颈。

NVIDIA Run:ai v2.24 Tackles GPU Scheduling Fairness for AI Workloads

行业趋势与背景

这一功能的推出恰逢行业更广泛的趋势。根据最近对 2026 年 Kubernetes 的预测,AI 工作负载正成为 Kubernetes 增长的主要驱动力,像 Kueue 这样的云原生作业队列系统预计将实现重大采用增长。GPU 调度和分布式训练操作员位列塑造生态系统的关键更新之一。

功能运作机制

基于时间的公平共享通过三个输入计算每个队列的有效权重:配置权重(团队应得的资源比例)、在可配置窗口内的实际使用量(默认为一周)以及一个 K 值,用于确定系统纠正不平衡的激进程度。

当某个队列消耗的资源超过其比例份额时,其有效权重会下降;当其资源不足时,权重会提升。保证配额(即无论其他团队如何操作,每个团队都有权使用的资源)在整个过程中仍然受到保护。

一些值得注意的实现细节包括:使用量是根据集群总容量测量的,而不是根据其他团队的消耗情况。这避免了因使用闲置 GPU 而惩罚团队。优先级层级仍然正常运行,高优先级队列无论历史使用情况如何,都会优先于低优先级队列获得资源。

配置与测试

设置按节点池配置,允许管理员在专用池上进行实验,而不会影响生产工作负载。NVIDIA 还发布了针对 KAI 调度器的开源时间公平共享模拟器,使团队能够在部署前建模队列分配。

该功能随 Run:ai v2.24 一起发布,并可通过平台 UI 使用。运行开源 KAI 调度器的组织可以通过项目文档中的配置步骤启用该功能。

对企业的影响

对于正在扩展 AI 基础设施的企业来说,这一发布解决了一个真正的运营痛点。尽管它是否会影响 NVIDIA 的股价(目前交易价格约为 89,128 美元,24 小时内波动不大)取决于更广泛的采用模式,但对于那些厌倦了处理卡住训练任务投诉的 ML 平台团队来说,这是一个受欢迎的解决方案。