随着AI系统从单轮交互演变为多智能体协同工作流,低延迟推理变得越来越重要。自回归大语言模型每次生成一个Token,推理速度受限于内存带宽。NVIDIA DFlash投机解码技术通过在Blackwell GPU上并行执行多个推测Token的验证,显著提升了推理吞吐量。DFlash的核心思路是利用轻量级的草稿模型快速生成多个候选Token,再由目标模型并行验证。由于验证过程可以充分利用Blackwell GPU的张量核心进行批量矩阵计算,DFlash在保持输出质量不变的前提下,将Llama等主流模型的推理吞吐量提升了最高达15倍。
DFlash的关键创新在于其与Blackwell架构的深度适配。Blackwell引入了第二代Transformer引擎和FP4/Tensor Core支持,DFlash利用这些硬件特性优化了草稿模型推理和并行验证的计算图。在实际测试中,DFlash在Llama 3.1 8B模型上实现了5-8倍加速,在70B模型上实现了8-15倍加速。对于需要高吞吐量推理的在线服务和批量处理场景,DFlash提供了一种无需修改模型即可获得数倍性能提升的实用方案。
WeChat
Profile