NVIDIA NIXL 开源发布：统一的 AI 推理分布式数据移动库 | 新闻中心

部署大语言模型需要大规模分布式推理，将模型计算和请求处理分散到多个 GPU 和节点上。在此过程中，KV 缓存传输、激活值调度和存储访问等数据移动操作成为关键瓶颈。NVIDIA 最新开源的 Inference Transfer Library（NIXL）正是为这些场景设计的统一数据移动库。

NIXL 是一个厂商中立的开源库，用于加速 AI 推理框架中的点对点数据传输。它提供统一的 API，支持 RDMA、GPU 发起网络通信、GPU-Direct 存储、块存储和文件存储，以及包括 S3 over RDMA 和 Azure Blob Storage 在内的云存储选项。这意味着一个 API 即可覆盖从 GPU 内存到远端对象存储的完整数据通路。

在分离式推理场景中，Prefill 和解码阶段运行在不同 GPU 上，需要高效的 KV 缓存传输。NIXL 提供低延迟、高吞吐的通信能力，使分离式推理能够真正发挥优势。在 KV 缓存加载场景中，可以利用本地 SSD 和远端存储加载长上下文 KV 缓存，避免重复计算。

NIXL 还支持宽专家并行场景下的激活值传输，专家跨多个 GPU 部署时，中间结果需要在 GPU 间高效调度和合并。这类传输通常由 GPU 通过优化的内核发起，NIXL 的设备端 API 为此提供了原生支持。

此外，NIXL 考虑了推理工作负载对动态性和弹性的特殊需求。服务可以 7x24 小时运行，GPU 数量可根据用户需求变化，Prefill 和解码 GPU 比例可以动态调整。在故障发生时，系统需要在低吞吐下持续运行直到恢复完成。NIXL 的架构设计支持这些复杂的动态场景。

目前 NIXL 已作为开源项目在 GitHub 上发布，支持 AWS（EFA 网络和 Trainium/Inferentia 加速器）以及 Azure（RDMA 网络）等多样化的运行环境。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

NVIDIA NIXL 开源发布：统一的 AI 推理分布式数据移动库 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询