咨询热线:

4001616691

解决方案

当前位置:首页 >> 解决方案

NVIDIA Spectrum-X 加速大规模 AI 工作负载优化

详情介绍:

image.png

在当今迅速发展的技术格局中,保持领先地位不仅仅是一个目标——这是一个必要条件。创新浪潮,尤其是 AI 领域的创新,正在推动整个技术堆栈的巨大变革。

见证深刻变革的一个领域是以太网(Ethernet)网络,这是数字通信的基石,数十年来一直是企业和数据中心环境的基础

如今,每个数据中心都在加速,以支持现代 AI 工作负载,从而增加了对支持这些工作负载的基础设施的需求。许多企业已经非常熟悉 Ethernet,将其作为可信网络标准。然而,他们缺乏一种解决方案来充分支持使用 Ethernet 协议的 AI 工作负载的特性。

NVIDIA 的创新愿望通常是出于对理解和响应客户不断变化的需求的深刻承诺,确保我们的解决方案不仅满足而且可以预测并超过预期。

进入 NVIDIA Spectrum-X 时代,NVIDIA Spectrum-X 是全球首款高性能以太网结构,旨在实现不仅仅是增量的改进。它们代表着重大飞跃,确保以太网在数据呈指数级增长的时代仍然是一种可靠的、面向未来的技术。

从概念到实现的性能

由于 AI 工作负载需要不断增加的数据吞吐量和零尾延迟,因此必须重塑传统的以太网以满足严格的要求。必须大规模利用、部署和验证 Remote Direct Memory Access (RDMA) 协议的进步、平衡大型网络流量以及更好的拥塞控制方法等方面的考虑因素。

虽然以太网已经被用于大规模超大规模云和数据中心,但实际上它只能支持单个服务器或小型工作负载。传统以太网本质上是一种有损网络,在扩展AI等分布式计算工作负载时,会带来重大挑战。

为了解决传统以太网的这些缺点,我们开始开发新技术和功能,将NVIDIA以太网产品转变为高性能计算结构,能够支持加速计算的严格要求。 

NVIDIA Spectrum-X 代表了传统以太网的重大进步,它被专门设计为一种端到端架构,用于优化 AI 工作负载。它使用 NVIDIA BlueField-3 SuperNIC 端点与 NVIDIA Spectrum-4 交换机协同工作,并特别增强了数据中心环境中的 GPU 到 GPU 通信(也称为东西向网络流量)。常见做法包括:基于遥测的拥塞控制、无损网络、动态负载均衡。

基于遥测的拥塞控制

通过将高频遥测探针与流量测量相结合,Spectrum-X拥塞控制可确保工作负载得到保护,并确保网络提供性能隔离。这意味着各种类型的AI工作负载可以同时在共享基础设施上运行,而不会对性能产生负面影响。

无损网络

Spectrum-X 使用细粒度自适应路由来最大限度地提高网络利用率,并确保以太网的最高有效带宽。自适应路由通过在整个网络中实现逐包负载均衡,避免了传统以太网中静态路由(等价多路径,即 ECMP)或流路由的陷阱,而无需深度缓冲区和避震器。

由于负载均衡意味着数据包可以乱序地到达目的地,因此 NVIDIA BlueField-3 SuperNIC 可确保重新排序数据包,并将其放置在主机内存中,从而使应用程序无法察觉重新排序。

动态负载均衡

Spectrum-X 使用细粒度自适应路由来最大限度地提高网络利用率,并确保以太网的最高有效带宽。自适应路由通过在整个网络中实现逐包负载均衡,避免了传统以太网中静态路由(等价多路径,即 ECMP)或流路由的陷阱,而无需深度缓冲区和避震器。

由于负载均衡意味着数据包可以乱序地到达目的地,因此 NVIDIA BlueField-3 SuperNIC 可确保重新排序数据包,并将其放置在主机内存中,从而使应用程序无法察觉重新排序。

结语

Spectrum-X 的发展历程还处于起步阶段。随着我们的发展,NVIDIA 继续借助 Spectrum-X 进行创新,在构建 AI 工厂、生成式 AI 云和企业 AI 数据中心方面发挥着关键作用。Spectrum-X 平台树立了标准,提供了无与伦比的性能和效率。

  • 咨询热线
  • 4001616691