编程智能体正在大规模编写生产代码。Stripe 的智能体每周生成 1300+ 个 PR,Ramp 30% 的合入 PR 由智能体完成。Claude Code 和 Codex 等工具每次编码会话会发起数百次 API 调用,每次携带完整对话历史。在这些工作流背后,推理栈承受着巨大的 KV 缓存压力。
以 Claude Code 为例,首次 API 调用将对话前缀写入 KV 缓存后,后续对同一工作线程的每次调用都命中 85-97% 的缓存。智能体团队甚至将聚合缓存命中率推高至 97.2%,读/写比达到 11.7 倍——即系统每写入一个 token,就从缓存读取近 12 次。这种写一次读多次的模式使得最大化缓存复用率成为智能体推理的核心优化目标。
NVIDIA Dynamo 正是为弥补这一差距而构建的。它在三个层面实现智能体原生优化:前端 API 层支持多协议(v1/chat/completions、v1/responses、v1/messages),通过统一的内部表示让单一部署为任何智能体框架提供推理后端;路由器层根据智能体工作负载特征进行智能调度;KV 缓存管理层则专注于跨工作线程的缓存复用和热度保持。
在前端层面,v1/responses 和 v1/messages API 使用类型化内容块,使编排器可以看到思考过程、工具调用和文本的块边界,从而对每种块类型应用不同的缓存和调度策略。Dynamo 已支持 GLM-5 和 MiniMax2.5 等模型的部署,并计划发布优化后的部署方案。
对于在自有 GPU 上运行开源模型的团队来说,Dynamo 提供的智能体原生推理栈意味着无需自己构建前缀匹配、缓存放置和淘汰策略等基础设施。随着智能体工作负载持续增长,这种全栈优化正在成为高效推理部署的关键竞争力。
WeChat
Profile