在阿姆斯特丹举行的KubeCon Europe 2026大会上,NVIDIA宣布了一项关键举措:将NVIDIA动态资源分配(DRA) GPU驱动程序捐赠给云原生计算基金会(CNCF)。这意味着该驱动程序将从供应商管理转向Kubernetes项目上游治理,由开源社区共同拥有和迭代。
CNCF首席技术官Chris Aniszczyk评价道:
“这是开源Kubernetes和AI基础设施的一个重要里程碑。NVIDIA让高性能GPU编排工作更为无缝,且便于开发者使用。”
一、为什么这次捐赠很重要?
对于绝大多数企业而言,AI工作负载运行在Kubernetes上。但管理数据中心内为AI提供动力的强大GPU,过去需要付出巨大努力。
此次捐赠的核心价值在于让高性能计算更易用,开发者将获得:
| 能力 | 说明 |
|---|---|
| 更高效率 | 支持NVIDIA Multi-Process Service和MIG技术,实现更智能的GPU资源共享 |
| 大规模扩展 | 原生支持多节点NVLink互联,对训练大型AI模型至关重要 |
| 动态灵活性 | 可根据需要动态重新配置硬件,随时更改资源分配 |
| 精细控制 | 支持指定算力、显存设置或互连配置,满足应用微调需求 |
一句话总结:企业可以像管理CPU一样灵活、高效地管理GPU资源池。
二、全行业协作,生态已就绪
NVIDIA正在与以下行业领导者合作,共同推动这些功能:
亚马逊云科技、博通、Canonical、Google Cloud、微软、Nutanix、红帽、SUSE
红帽首席技术官Chris Wright表示:
“开源将成为每个成功企业AI策略的核心。NVIDIA的捐赠有助于巩固开源在AI演进中的作用。”
CERN平台基础设施负责人Ricardo Rocha(欧洲核子研究组织)指出:
“开源软件是科学计算和研究基础设施的基石。NVIDIA的捐赠强化了研究人员所依赖的生态系统。”
三、不只是驱动:KubeCon上的其他开源发布
除了DRA驱动捐赠,NVIDIA还在KubeCon上宣布了多项开源进展:
1. 机密容器GPU支持
与CNCF机密容器社区合作,为Kata Containers引入GPU支持。这使得AI工作负载能够在更强的硬件隔离环境下运行,实现机密计算保护。
2. KAI Scheduler成为CNCF Sandbox项目
NVIDIA的高性能AI工作负载调度器现已作为CNCF Sandbox项目上线,促进更广泛协作。
3. 全新开源项目
NVSentinel:GPU故障修复系统
AI Cluster Runtime:智能体AI框架
NemoClaw:参考软件栈
OpenShell:用于安全运行自主智能体,支持细粒度可编程策略和隐私管理,与Linux、eBPF和Kubernetes原生集成
4. Grove扩展Dynamo生态
Grove是一个用于在GPU集群上编排AI工作负载的开源Kubernetes API,目前正在与llm-d推理堆栈集成。
四、对企业客户的启示:为什么值得关注?
如果您正在构建或运营AI算力集群(无论是训练还是推理),这些开源进展将直接影响您的基础设施效率和成本:
更低的运维门槛:DRA驱动程序使GPU资源池化更智能,减少人工干预
更强的安全性:机密容器GPU支持,满足金融、医疗等严格合规场景
更开放的生态:避免供应商锁定,可灵活选择云或本地部署
更大的规模:原生支持多节点NVLink互联,为NVIDIA Grace Blackwell等下一代AI基础设施做好准备
五、NVIDIA的长期承诺
NVIDIA在新闻稿中强调:
“NVIDIA致力于积极维护和贡献Kubernetes及CNCF项目,助力满足企业AI客户的严格需求。”
从捐赠DRA驱动,到开源KAI Scheduler、OpenShell等项目,NVIDIA正在将自己从“硬件供应商”转变为AI基础设施开源生态的核心贡献者。
WeChat
Profile