NVIDIA DFlash投机解码：在Blackwell上将推理性能提升高达15倍

解决方案

SOLUTION OVERVIEW

NVIDIA DFlash投机解码：在Blackwell上将推理性能提升高达15倍

方案分类 解决方案
内容形式 场景方案 / 技术解析
服务支持 咨询、测试申请、实施建议

咨询顾问返回方案库

如果你正在评估对应场景，我们可以基于当前方案继续细化产品组合、测试路径与实施节奏。

浏览更多相关方案

DETAIL MODULES

方案详情

查看方案背景、关键能力与适配场景，帮助你更快判断下一步应进入测试、咨询还是部署阶段。

随着AI系统从单轮交互演变为多智能体协同工作流，低延迟推理变得越来越重要。自回归大语言模型每次生成一个Token，推理速度受限于内存带宽。NVIDIA DFlash投机解码技术通过在Blackwell GPU上并行执行多个推测Token的验证，显著提升了推理吞吐量。DFlash的核心思路是利用轻量级的草稿模型快速生成多个候选Token，再由目标模型并行验证。由于验证过程可以充分利用Blackwell GPU的张量核心进行批量矩阵计算，DFlash在保持输出质量不变的前提下，将Llama等主流模型的推理吞吐量提升了最高达15倍。

DFlash的关键创新在于其与Blackwell架构的深度适配。Blackwell引入了第二代Transformer引擎和FP4/Tensor Core支持，DFlash利用这些硬件特性优化了草稿模型推理和并行验证的计算图。在实际测试中，DFlash在Llama 3.1 8B模型上实现了5-8倍加速，在70B模型上实现了8-15倍加速。对于需要高吞吐量推理的在线服务和批量处理场景，DFlash提供了一种无需修改模型即可获得数倍性能提升的实用方案。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

解决方案

NVIDIA DFlash投机解码：在Blackwell上将推理性能提升高达15倍