正文

Together AI升级GPU集群:新增自动扩展与自我修复功能

编辑:PUMPmaps发布时间:2小时前

Together AI推出重大基础设施升级

Together AI对其GPU集群平台进行了重要的基础设施升级,新增了自动扩展、基于角色的访问控制(RBAC)、全栈可观测性以及节点自我修复功能。这些增强功能的推出正值该公司据本月早些时候的报道正在寻求10亿美元的新一轮融资。

企业级自动扩展功能减少GPU浪费

新的自动扩展功能由Kubernetes集群自动扩展器提供支持,可监控GPU受限的工作负载,并根据实时需求自动配置或停用节点。对于运行可变推理工作负载或突发训练任务的团队来说,这意味着在低谷期无需为闲置硬件付费。

静态GPU配置一直是一个持续存在的痛点。组织要么过度配置(昂贵),要么配置不足(在需求高峰时出现性能瓶颈)。Together AI的方法使集群能够在高负载时扩展,在需求下降时收缩。

自我修复功能应对硬件现实

GPU硬件难免会出故障。在大型集群中,问题不在于是否会出故障,而在于何时出故障。对于分布式训练来说,单个不稳定节点可能会使数小时的计算时间无效。

Together AI的解决方案是:用户可以在启动主要训练任务之前触发自助健康检查。测试范围从基本的DCGM诊断到多节点NCCL和InfiniBand带宽测试。当某个节点确实发生故障时,通过三步点击的自我修复流程,系统会自动隔离、排空并重新创建该节点——使集群在几分钟内恢复健康状态,而不是几小时。

验收测试现在在配置过程中自动运行。集群在通过测试之前不会被标记为就绪状态。

企业级访问控制

RBAC实现引入了“项目”作为团队的隔离边界。两个默认角色清晰地划分了职责:管理员拥有对控制平面的完全访问权限,可以进行集群的创建和删除;而成员则可以访问GPU工作节点并运行工作负载,而无需接触基础设施配置。

这对于需要锁定基础设施的平台工程师,同时给予机器学习研究人员实验自由的组织尤为重要。

原生可观测性

每个GPU集群项目现在都包含一个专用的Grafana实例,并配有预构建的仪表板。遥测数据覆盖了通过DCGM指标获取的GPU利用率、InfiniBand和NIC级别的网络数据、存储I/O性能以及Kubernetes编排健康状况。该功能目前处于私人预览阶段。

市场背景

Together AI在GPU即服务领域积累了强劲的发展势头。该公司于2025年9月推出了自助式GPU基础设施,并在同年3月的NVIDIA GTC 2025上发布了即时GPU集群。该平台支持NVIDIA Hopper(H100)和Blackwell(B200)GPU,即时集群可扩展至64个GPU,专用集群可达1,000个GPU。

据报道,Together AI市值已达75亿美元,并正在进行一轮潜在价值达10亿美元的融资。公司正将自己定位为超大规模GPU服务的有力替代者,目标客户是希望获得裸金属性能但又不想承担管理自有硬件运营负担的团队。

新功能现已向现有的Together GPU集群客户开放。

Together AI Upgrades GPU Clusters With Autoscaling and Self-Healing Features