NVIDIA 极协同设计破解智能体系统扩展难题：从芯片到平台的全面重构 | 新闻中心

生成式 AI 的第一阶段由"人类发送请求、模型生成回复"定义。智能体时代则完全不同——智能体不遵循预设动作序列，而是自主调用工具、生成子智能体执行不同任务、在记忆中保留信息、管理自身上下文窗口，并自行判断何时完成。这些行为将 Token 消耗、上下文长度和延迟需求推向了极为严苛的水平，而这正是 NVIDIA 极协同设计（Extreme Co-Design）堆栈和 Vera Rubin 平台所要解决的核心挑战。

从聊天机器人到工具调用、再到智能体系统，交互模式的复杂度逐级跃升。聊天机器人的输入输出可预测，引入工具调用后，工具返回结果的大小取决于具体查询，不确定性开始显现。而智能体系统进一步放大这种不确定性——一个智能体可以自主决定调用多少个工具、以何种顺序调用。例如，一个负责撰写邮件的智能体可能先读取已有往来邮件、检查网盘获取上下文、确认收件人身份，然后再起草邮件。这种链式调用将工作负载从"线性可预测"转变为"结构性概率化"，使得每次智能体会话的行为模式都可能完全不同。

现代智能体架构由多层结构组成：主智能体对整个任务端到端交付负责，可派生子智能体处理细分任务；子智能体由主智能体生成，处理更窄范围的任务，能自主管理上下文窗口；文件系统状态化提供额外持久化能力，智能体可将记忆和工具调用结果写入文件以便后续检索；总结与压缩技术则用于缩减上下文窗口，为新的信息腾出空间并降低输入处理成本。

在 Token 消耗方面，Anthropic 在构建多智能体系统的报告中估计，这些系统消耗的 Token 量可达标准聊天模式的 15 倍。以一次实际的 Claude Code 编码任务为例，33 分钟的会话跟踪了 58 次主智能体交互和 225 次子智能体调用。主智能体在未委派任务或压缩上下文时，输入上下文迅速增长，从 15K Token 攀升至 156K 峰值，在压缩事件后才回落至约 20K。

提示缓存是支撑这种模式的关键。在 95% 缓存命中率下，输入处理成本可降低约 85%；没有缓存时成本大约高出 6 倍。编码智能体的缓存命中率通常维持在 95-98%，尤其在工具输出较小时。正因如此，提示缓存日益成为一个系统性问题而不仅仅是 API 特性——维持高缓存命中率取决于高效的 KV 缓存管理和专用的大容量上下文存储。

解锁智能体工作负载的价值需要高模型智能度、大上下文和低延迟。问题在于，实现低延迟通常会导致系统吞吐量大幅下降，产生高昂的每 Token 成本。破解这一瓶颈需要基础设施设计的根本转变。NVIDIA 的极协同设计思路是：将每个瓶颈映射到专门优化的硬件，并通过统一系统编排协同工作。Vera Rubin NVL72 以 Blackwell 十分之一的每百万 Token 成本处理容量和计算需求；Vera CPU 降低智能体延迟、实现无缝 KV 缓存卸载和统一 CPU-GPU 执行；Groq 3 LPX 以 SRAM 优先架构提供严格可控的低抖动 Token 生成；NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-X 以太网构建统一低延迟服务网络。

在软件层面，Dynamo 和注意力-前馈网络分离技术（AFD）通过拆分工作负载、协调执行来减少资源争用和延迟；NVFP4 降低精度开销使 MoE 智能体以更低延迟、更高吞吐量运行；TRT-LLM WideEP 优化大规模专家并行；推测解码通过并行生成 Token 并快速验证来降低智能体响应延迟。

通过将这些芯片和软件堆栈以极协同设计整合，Vera Rubin 平台可在 400K 大上下文下为万亿参数 MoE 模型提供每位用户每秒 400+ Token 的性能。这一水平打破了传统的权衡范式——不再需要为了速度而牺牲模型质量和上下文窗口大小，智能体架构由此真正成为可规模化的产品，而非昂贵的实验。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

NVIDIA 极协同设计破解智能体系统扩展难题：从芯片到平台的全面重构 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询