咨询热线 4001616691
联系我们 中国大陆 CNY

新闻中心

NVIDIA DSX OS 发布开源模块化软件栈,面向 AI 工厂规模化运营 NEWS DETAIL

当前位置:首页 > 新闻中心
资讯分类 · 新闻中心 发布时间 · 2026-06-04

随着生成式 AI 和智能体应用持续扩张,AI 基础设施正在从单纯的算力集群演进为能够持续输出"智能"的 AI 工厂。NVIDIA 近日发布 DSX OS 软件栈,为 DSX 平台补充一套面向 AI 工厂运营的开源、模块化基础软件能力,帮助企业在部署、扩展和管理大规模 AI 基础设施时提升效率与可靠性。

根据 NVIDIA 介绍,DSX OS 主要服务于多租户 AI 工厂场景,围绕计算、网络、供电、运维和平台服务进行统一协同。其核心目标包括缩短基础设施上线周期、提升单位能耗下的有效产出,并增强大规模集群在持续运行过程中的稳定性与韧性。对于正在建设 AI 平台或算力中心的企业而言,这类软件层能力正成为硬件之外的重要竞争点。

在能力构成上,DSX OS 采用开源与模块化设计,覆盖多个关键环节。例如,DSX Exchange 用于打通数据中心内计算、网络、供电和制冷等系统之间的通信;DSX MaxLPS 和 DSX Flex 进一步将电力视为可调度资源,以支持更灵活的能效优化和负载响应。NVIDIA 表示,这种协同方式有助于在固定电力预算下提升 GPU 资源利用效率。

在集群交付与生命周期管理方面,DSX OS 还集成了面向裸金属管理和租户隔离的相关组件,包括 NVIDIA Infra Controller、DOCA Platform Framework 以及 AI Cluster Runtime 等,用于降低大规模部署中的配置漂移和运维复杂度。同时,NVSentinel 和 Fleet Intelligence 等组件可提供 GPU 集群健康监控、自动化故障处置和全局可视化能力,帮助运维团队更快定位和处理异常。

面向 AI 服务落地,DSX OS 还结合了调度与推理相关的软件能力,包括 KAI Scheduler、NVIDIA Run:ai、NVIDIA Dynamo、NVIDIA Grove 以及 NVIDIA Cloud Functions 等组件。这意味着企业不仅可以管理底层基础设施,还能进一步承接推理、微调和批处理等上层工作负载,为 AI 工厂提供更完整的软件支撑。

NVIDIA 表示,DSX OS 组件已在 GitHub 提供,并支持按需逐步集成到现有软件栈中。整体来看,DSX OS 的发布反映出 AI 基础设施竞争正在从单点性能转向系统级协同,尤其是在智能体工作负载快速增长的背景下,面向规模化运营的软件平台能力正变得越来越关键。