NVIDIA 推出已正式可用的 Fleet Intelligence 服务,面向数据中心 GPU 运营场景,提供实时遥测、告警、健康检查与完整性验证能力,帮助企业提升 GPU 集群运维效率、可用性与资源利用率。
随着大规模 GPU 集群持续扩张,企业在运维中面临的挑战也越来越复杂。异构硬件、快速迭代的软件栈、功耗约束以及多租户负载波动,都会影响集群整体效率。对于运营团队来说,仅仅知道节点是否在线已经不够,更需要了解每张 GPU 是否处于稳定、健康且高效的运行状态。
NVIDIA 此次推出的 Fleet Intelligence,正是面向这类场景的托管式监测服务。该服务采用主机侧轻量级代理,持续采集 GPU 遥测数据,并将相关信息回传到云端管理服务中,用于统一分析与展示。NVIDIA 表示,该服务现已正式可用,主要面向自建基础设施的数据中心 GPU 与 CPU 用户。
从功能上看,Fleet Intelligence 主要覆盖三个方向:资产清点与可视化、报告与告警、完整性与可信验证。运维人员可以按数据中心、云区域或计算分区查看 GPU 利用率、显存使用、设备状态等关键信息,并快速定位功耗异常、温度热点、性能波动以及潜在硬件故障。
在健康管理方面,Fleet Intelligence 可结合 GPUd、DCGM 等 NVIDIA 相关技术,对主机、GPU、NVLink 和网络状态进行近实时监控,同时执行周期性健康检查。系统支持通过邮件、Slack 等渠道发送告警,并可生成历史趋势报告,帮助团队分析温度、功耗、错误和停机情况,从而更早发现风险并优化资源调度。
此外,Fleet Intelligence 还引入了基于 NVIDIA 机密计算技术的完整性验证机制。系统可通过 Attestation SDK 获取 GPU 运行时测量信息,并借助远程验证服务判断设备配置是否可信、是否被篡改。这一能力有助于企业在扩大 GPU 部署规模的同时,进一步加强平台安全性与运维透明度。
WeChat
Profile