在GTC 2026大会上,NVIDIA宣布NVIDIA Dynamo 1.0生产版本正式推出,并被全球广泛采用。Dynamo是一个用于大规模生成式和智能体推理的开源软件,作为AI工厂的分布式“操作系统”,在集群中协调GPU和显存、内存等存储资源,以驱动复杂的AI工作负载。
NVIDIA创始人兼CEO黄仁勋表示:
“推理是智能的引擎,驱动了每一次查询、每一个智能体以及每一个应用。通过NVIDIA Dynamo,我们创建了首个面向AI工厂的‘操作系统’。整个生态系统中的快速采用表明新一波代理式AI浪潮已经到来,NVIDIA正在全球范围内推动其发展。”
一、核心价值:提升推理性能,降低Token成本
在最近的行业基准测试中,Dynamo将NVIDIA Blackwell GPU的推理性能至高提升7倍,并通过免费的开源软件降低了Token成本,为数百万GPU带来了增加收益的机会。
技术原理:
引入更智能的“流量控制”
在GPU和低成本存储之间移动数据
将推理工作分配到多个GPU上,减少资源浪费,缓解显存限制
针对代理式AI和长提示:将请求路由到已在稍早步骤获得最相关“短期记忆”的GPU,然后在无需使用时卸载该显存
二、Dynamo 1.0的核心组件与生态集成
Dynamo和NVIDIA TensorRT LLM优化已原生集成到多个开源框架中:
LangChain
llm-d
LMCache
SGLang
vLLM
可独立使用的核心构建模块:
| 组件 | 功能 |
|---|---|
| KVBM | 更智能的KV存储管理 |
| NVIDIA NIXL | 快速GPU到GPU数据移动 |
| NVIDIA Grove | 简化扩展 |
NVIDIA还将TensorRT LLM CUDA内核贡献给FlashInfer项目,以便将其原生集成到开源框架中。
三、广泛采用:覆盖云服务商、AI原生公司与企业
NVIDIA推理平台在整个AI生态系统中得到支持:
云服务提供商:
AWS、微软Azure、谷歌云、OCI
NVIDIA云合作伙伴:
阿里云、CoreWeave、Crusoe、DigitalOcean、Gcore、GMI Cloud、Lightning AI、Nebius、Nscale、Together AI、Vultr
AI原生公司:
Cursor、Hebbia、Perplexity
推理端点提供商:
Baseten、Deep Infra、Fireworks
全球企业:
阿斯利康、贝莱德、字节跳动、Coupang、Instacart、美团、PayPal、Pinterest、Shopee、软银集团
四、合作伙伴评价
CoreWeave产品和工程执行副总裁Chen Goldberg:
“采用NVIDIA Dynamo使我们能够为部署复杂的AI智能体提供更无缝、更具弹性的环境。这一底座具有稳定性和高性能编排能力,助力业界具有挑战性的智能体工作负载实现全球部署。”
Nebius首席技术官Danila Shtan:
“大规模交付可靠的AI推理不仅需要强大的GPU,还需要将性能转化为实际客户价值的软件。从Dynamo到TensorRT LLM,我们高度重视NVIDIA的软件堆栈。”
Pinterest首席技术官Matt Madrigal:
“通过NVIDIA Dynamo对部署进行优化,我们得以基于高性能AI基础设施持续拓展,为用户提供无缝、个性化体验。”
Together AI联合创始人兼首席执行官Vipul Ved Prakash:
“NVIDIA Dynamo 1.0与Together AI的前沿推理研究相结合,助力我们构建高性能堆栈,为大规模生产工作负载提供加速且经济高效的推理。”
五、核心数据总结
| 指标 | 数据 |
|---|---|
| Dynamo提升Blackwell推理性能 | 至高7倍 |
| 软件性质 | 免费、开源 |
| 已集成的开源框架 | LangChain、llm-d、LMCache、SGLang、vLLM等 |
| 云服务提供商覆盖 | AWS、Azure、谷歌云、OCI等 |
| NVIDIA云合作伙伴 | 阿里云、CoreWeave、Nebius、Together AI等10+家 |
| 全球企业采用 | 字节跳动、美团、PayPal、Pinterest、软银集团等 |
六、对企业客户的启示
如果您所在的企业正在大规模部署AI推理服务(如智能体、生成式AI应用),Dynamo 1.0提供了:
性能提升:Blackwell GPU推理性能最高提升7倍
成本降低:开源软件降低Token成本
开源生态:原生集成到主流推理框架(vLLM、SGLang等)
生产级可用:已大规模采用,覆盖头部云厂商和AI原生公司
模块化设计:KVBM、NIXL、Grove可独立使用
面向代理式AI:针对长提示和智能体工作负载优化
结语
Dynamo作为AI工厂的分布式“操作系统”,正在成为大规模AI推理的基础设施标准。
从云服务提供商到AI原生公司,从推理端点到全球企业,Dynamo 1.0已被广泛采用。它解决了代理式AI时代最核心的挑战:如何在多GPU集群中高效编排推理资源,以最低成本、最高性能支撑数千万用户的实时请求。
WeChat
Profile