咨询热线:

4001616691

解决方案

当前位置:首页 >> 解决方案

NVIDIA BlueField:为JBOF架构带来性能与成本的双重优化

详情介绍:

AI 的发展推动了计算能力的指数级增长,网络速度每隔几年就会翻一番。 不太为人所知的是,它还对存储提出了新的要求。

训练新模型通常需要对 PB 级数据进行高带宽网络访问,而使用新型检索增强生成技术(RAG)进行推理则需要对数百 TB 级存储进行低延迟访问。新模型还可以对丰富的图像和视频数据进行训练、索引和检索。许多新的 AI 推理索引和搜索工具都依赖于向量数据库,还必须保留有关所有嵌入式内容的大量元数据。

传统的文件存储通常不适用于这些新的工作负载,传统存储硬件并不是支持 AI 的最高效或性能的方式。通常,对象存储是处理大量数据的最佳架构。相对于价格和能耗而言,需要提供更好性能和效率的新存储解决方案。

基于DPU的JBOF架构

Supermicro 长期以来一直提供许多 JBOF(仅仅是一堆闪存)解决方案,将其部署为直接连接的存储或网络文件或对象存储。现在,他们正在推出一款由 NVIDIA BlueField 数据处理器(DPU)提供支持的新 JBOF。

新的 JBOF 不再使用带有独立 CPU、内存和网卡的传统存储服务器设计,而是使用 DPU 运行软件、连接网络、支持远程管理,并在定制芯片中加速关键网络、存储和安全功能。

DPU 卡可代替 CPU、网卡、DRAM 模块、CPU PCIe 交换机、加密加速器、BMC 和远程管理端口。连接 SSD 可能仍需要外部 PCIe 交换机。

BlueField 是 NVIDIA 市场领先的 DPU,它经过优化,可卸载和加速网络、存储、安全和管理功能。由于 DPU 将网络、CPU、内存控制器、PCIe 交换机和流量加速器整合在一个芯片上,因此数据可以直接在 SSD 和高速网络端口之间移动,而无需由外部 CPU 处理,也无需多次交叉单独的 PCIe 总线,从而实现低延迟存储访问,使系统在价格、性能和能效方面更加高效。

BlueField DPU 存储控制器卡支持高达 400 Gb/s 的网络流量,还可以加速 NVMe over Fabrics (NVMe-oF) 存储协议和其他基于 RDMA 的存储流量。它还充当 PCIe 根复合体来管理 SSD,并使用其 Arm 核心运行存储软件,允许 JBOF 以块、文件或对象存储的形式呈现,并作为扩展存储解决方案的一部分进行部署。

BlueField 还提供安全卸载和远程管理功能,包括自己的基板管理控制器(BMC)和单独的管理端口,这些功能通常是大规模数据中心部署和云运营所需的。、

全新 Supermicro JBOF

Supermicro 的新款 2RU JBOF 采用灵活设计,支持 36 个 E3.S SSD 或 24 个 U.2 SSD,原始容量高达 1.44 PB,之后使用较新的 60-TB SSD 最多可支持 2 PB。它拥有两个控制器罐,每个罐可支持多达两个 BlueField-3 DPU 和一个 NVIDIA GPU。

JBOF 可在每个 JBOF 机箱内部署两个容器,以实现主动 – 主动或主动 – 被动高可用性;也可仅使用一个容器,以在多个 JBOF 中通过软件处理冗余和故障转移的云存储情况下实现更高效率。

每个控制器罐最多可容纳两个 NVIDIA BlueField-3 DPU 和一个 NVIDIA GPU 卡。客户可以为每个 JBOF 部署两个容器以实现高可用性,或部署一个容器以提高成本效率并降低功耗。

密集设计非常适合纵向扩展和横向扩展文件和对象存储,而高网络吞吐量(每个 JBOF 高达 800Gb/s)支持人工智能训练和高性能计算工作负载的需求。

image.png

降本增效

对 Supermicro JBOF 的测试表明,在安装了一个 BlueField DPU 的存储工作负载下,它使 400-Gb/s 的网络连接饱和。基于 BlueField 的 JBOF 还显示,小块 (4 KB) 随机读取工作负载的延迟降低了 13%,新 JBOF 的时钟频率为 86 μs,而传统的基于 X86 的 JBOF 为 100μs

使用单个 DPU 卡替换 CPU、内存、网络卡和 BMC 可节省非 SSD 子系统高达 50% 的电量,或节省整个 JBOF(包括 SSD)高达 10% 至 15% 的电量。在大规模横向扩展存储部署中,这意味着数据中心的耗电量可节省数千瓦。

image.png

  • 咨询热线
  • 4001616691