咨询热线 4001616691
联系我们 中国大陆 CNY

新闻中心

NVIDIA 极协同设计破解智能体系统扩展难题:从芯片到平台的全面重构 NEWS DETAIL

当前位置:首页 > 新闻中心
资讯分类 · 新闻中心 发布时间 · 2026-05-20

生成式 AI 的第一阶段由"人类发送请求、模型生成回复"定义。智能体时代则完全不同——智能体不遵循预设动作序列,而是自主调用工具、生成子智能体执行不同任务、在记忆中保留信息、管理自身上下文窗口,并自行判断何时完成。这些行为将 Token 消耗、上下文长度和延迟需求推向了极为严苛的水平,而这正是 NVIDIA 极协同设计(Extreme Co-Design)堆栈和 Vera Rubin 平台所要解决的核心挑战。

从聊天机器人到工具调用、再到智能体系统,交互模式的复杂度逐级跃升。聊天机器人的输入输出可预测,引入工具调用后,工具返回结果的大小取决于具体查询,不确定性开始显现。而智能体系统进一步放大这种不确定性——一个智能体可以自主决定调用多少个工具、以何种顺序调用。例如,一个负责撰写邮件的智能体可能先读取已有往来邮件、检查网盘获取上下文、确认收件人身份,然后再起草邮件。这种链式调用将工作负载从"线性可预测"转变为"结构性概率化",使得每次智能体会话的行为模式都可能完全不同。

现代智能体架构由多层结构组成:主智能体对整个任务端到端交付负责,可派生子智能体处理细分任务;子智能体由主智能体生成,处理更窄范围的任务,能自主管理上下文窗口;文件系统状态化提供额外持久化能力,智能体可将记忆和工具调用结果写入文件以便后续检索;总结与压缩技术则用于缩减上下文窗口,为新的信息腾出空间并降低输入处理成本。

在 Token 消耗方面,Anthropic 在构建多智能体系统的报告中估计,这些系统消耗的 Token 量可达标准聊天模式的 15 倍。以一次实际的 Claude Code 编码任务为例,33 分钟的会话跟踪了 58 次主智能体交互和 225 次子智能体调用。主智能体在未委派任务或压缩上下文时,输入上下文迅速增长,从 15K Token 攀升至 156K 峰值,在压缩事件后才回落至约 20K。

提示缓存是支撑这种模式的关键。在 95% 缓存命中率下,输入处理成本可降低约 85%;没有缓存时成本大约高出 6 倍。编码智能体的缓存命中率通常维持在 95-98%,尤其在工具输出较小时。正因如此,提示缓存日益成为一个系统性问题而不仅仅是 API 特性——维持高缓存命中率取决于高效的 KV 缓存管理和专用的大容量上下文存储。

解锁智能体工作负载的价值需要高模型智能度、大上下文和低延迟。问题在于,实现低延迟通常会导致系统吞吐量大幅下降,产生高昂的每 Token 成本。破解这一瓶颈需要基础设施设计的根本转变。NVIDIA 的极协同设计思路是:将每个瓶颈映射到专门优化的硬件,并通过统一系统编排协同工作。Vera Rubin NVL72 以 Blackwell 十分之一的每百万 Token 成本处理容量和计算需求;Vera CPU 降低智能体延迟、实现无缝 KV 缓存卸载和统一 CPU-GPU 执行;Groq 3 LPX 以 SRAM 优先架构提供严格可控的低抖动 Token 生成;NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-X 以太网构建统一低延迟服务网络。

在软件层面,Dynamo 和注意力-前馈网络分离技术(AFD)通过拆分工作负载、协调执行来减少资源争用和延迟;NVFP4 降低精度开销使 MoE 智能体以更低延迟、更高吞吐量运行;TRT-LLM WideEP 优化大规模专家并行;推测解码通过并行生成 Token 并快速验证来降低智能体响应延迟。

通过将这些芯片和软件堆栈以极协同设计整合,Vera Rubin 平台可在 400K 大上下文下为万亿参数 MoE 模型提供每位用户每秒 400+ Token 的性能。这一水平打破了传统的权衡范式——不再需要为了速度而牺牲模型质量和上下文窗口大小,智能体架构由此真正成为可规模化的产品,而非昂贵的实验。