NVIDIA Fleet Intelligence 正式可用，为大规模 GPU 集群提供实时可视化与健康监测 | 新闻中心

NVIDIA 推出已正式可用的 Fleet Intelligence 服务，面向数据中心 GPU 运营场景，提供实时遥测、告警、健康检查与完整性验证能力，帮助企业提升 GPU 集群运维效率、可用性与资源利用率。

随着大规模 GPU 集群持续扩张，企业在运维中面临的挑战也越来越复杂。异构硬件、快速迭代的软件栈、功耗约束以及多租户负载波动，都会影响集群整体效率。对于运营团队来说，仅仅知道节点是否在线已经不够，更需要了解每张 GPU 是否处于稳定、健康且高效的运行状态。

NVIDIA 此次推出的 Fleet Intelligence，正是面向这类场景的托管式监测服务。该服务采用主机侧轻量级代理，持续采集 GPU 遥测数据，并将相关信息回传到云端管理服务中，用于统一分析与展示。NVIDIA 表示，该服务现已正式可用，主要面向自建基础设施的数据中心 GPU 与 CPU 用户。

从功能上看，Fleet Intelligence 主要覆盖三个方向：资产清点与可视化、报告与告警、完整性与可信验证。运维人员可以按数据中心、云区域或计算分区查看 GPU 利用率、显存使用、设备状态等关键信息，并快速定位功耗异常、温度热点、性能波动以及潜在硬件故障。

在健康管理方面，Fleet Intelligence 可结合 GPUd、DCGM 等 NVIDIA 相关技术，对主机、GPU、NVLink 和网络状态进行近实时监控，同时执行周期性健康检查。系统支持通过邮件、Slack 等渠道发送告警，并可生成历史趋势报告，帮助团队分析温度、功耗、错误和停机情况，从而更早发现风险并优化资源调度。

此外，Fleet Intelligence 还引入了基于 NVIDIA 机密计算技术的完整性验证机制。系统可通过 Attestation SDK 获取 GPU 运行时测量信息，并借助远程验证服务判断设备配置是否可信、是否被篡改。这一能力有助于企业在扩大 GPU 部署规模的同时，进一步加强平台安全性与运维透明度。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

NVIDIA Fleet Intelligence 正式可用，为大规模 GPU 集群提供实时可视化与健康监测 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询