NVIDIA先进融合内核：将MoE模型训练吞吐量提升2倍

混合专家模型已成为现代大规模AI系统的基础组件。它们通过每个Token仅激活部分专家的方式，在保持模型容量的同时实现了更高的计算效率。然而MoE模型的训练面临独特的挑战——跨专家的通信开销、负载不均衡和内核启动开销限制了训练吞吐量。NVIDIA发布了先进的融合内核技术，针对MoE训练中的关键操作进行了深度优化，将训练吞

解决方案

SOLUTION OVERVIEW

NVIDIA先进融合内核：将MoE模型训练吞吐量提升2倍

方案分类 解决方案
内容形式 场景方案 / 技术解析
服务支持 咨询、测试申请、实施建议

咨询顾问返回方案库

如果你正在评估对应场景，我们可以基于当前方案继续细化产品组合、测试路径与实施节奏。

浏览更多相关方案

DETAIL MODULES

方案详情

查看方案背景、关键能力与适配场景，帮助你更快判断下一步应进入测试、咨询还是部署阶段。

这些融合内核的核心思路是将MoE训练中分散的多个操作合并为单一内核执行，减少kernel launch开销和全局内存访问。具体优化包括：门控网络融合——将专家路由计算的多个步骤合并为一个内核；专家并行通信与计算重叠——在跨GPU通信的同时执行计算任务，隐藏通信延迟；以及稀疏注意力融合——针对MoE的稀疏激活模式优化注意力计算。在NVIDIA Hopper和Blackwell GPU上，这些融合内核在训练包含数千亿参数的超大规模MoE模型时，实现了显著的吞吐量提升。对于正在训练Mixtral、DeepSeek等MoE架构模型的AI团队来说，这些融合内核提供了一条无需修改模型架构即可直接获得性能加速的实用路径。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

解决方案

NVIDIA先进融合内核：将MoE模型训练吞吐量提升2倍

NVIDIA先进融合内核：将MoE模型训练吞吐量提升2倍

方案详情

产品中心

解决方案

服务支持

联系与咨询