混合专家模型已成为现代大规模AI系统的基础组件。它们通过每个Token仅激活部分专家的方式,在保持模型容量的同时实现了更高的计算效率。然而MoE模型的训练面临独特的挑战——跨专家的通信开销、负载不均衡和内核启动开销限制了训练吞吐量。NVIDIA发布了先进的融合内核技术,针对MoE训练中的关键操作进行了深度优化,将训练吞吐量提升了2倍。
这些融合内核的核心思路是将MoE训练中分散的多个操作合并为单一内核执行,减少kernel launch开销和全局内存访问。具体优化包括:门控网络融合——将专家路由计算的多个步骤合并为一个内核;专家并行通信与计算重叠——在跨GPU通信的同时执行计算任务,隐藏通信延迟;以及稀疏注意力融合——针对MoE的稀疏激活模式优化注意力计算。在NVIDIA Hopper和Blackwell GPU上,这些融合内核在训练包含数千亿参数的超大规模MoE模型时,实现了显著的吞吐量提升。对于正在训练Mixtral、DeepSeek等MoE架构模型的AI团队来说,这些融合内核提供了一条无需修改模型架构即可直接获得性能加速的实用路径。
WeChat
Profile