咨询热线:

4001616691

新闻中心

当前位置:首页 >> 新闻中心

随着 生成式 AI 重塑各行各业,对可立即部署的高性能推理的需求也在不断增长。 NVIDIA NIM AI 模型推理提供生产就绪型微服务容器,不断提高企业级生成式 AI 性能。即将推出的 NIM 版本 1.4 定于 12 月初发布,开箱即用的请求性能可提升高达 2.4 倍,并提供相同的单命令部署体验。

NIM 的核心是多个 LLM 推理引擎,包括 NVIDIA TensorRT-LLM ,可实现光速推理性能。在每个版本中,NIM 都整合了来自这些引擎的内核优化、内存管理和调度方面的最新进展,以提高性能。

Chart
图 1、与 NIM 1.2 相比,NVIDIA NIM 1.4 吞吐量。Llama 3.1 70B 2 个 H200-SXM 输入令牌 8K,输出令牌 256;Llama 3.1 8B 1 个 H100-SXM 输入令牌 30K,输出令牌 256。

在 NIM 1.4 中,内核效率、运行时启发式算法和内存分配有了显著改进,推理速度提高了 2.4 倍。这些进步对于依赖快速响应和高吞吐量的生成式 AI 应用的企业至关重要。

NIM 还受益于全栈加速计算的持续更新,可提升计算堆栈各个级别的性能和效率。这包括对最新的 NVIDIA TensorRT 和 NVIDIA CUDA 版本的支持,进一步提高了推理性能。NIM 用户无需手动更新软件,即可从这些持续改进中受益。

Chart
图 2、NVIDIA Llama 3.1 8B NIM 1.4 与 Llama 3.1 8B NIM 1.2 在 1x H100SXM 上运行,输入令牌 30K,输出令牌 256 。

NIM 整合了全套预配置软件,提供高性能 AI 推理,并且配置简单,使开发者能够快速开始使用高性能推理。

持续创新循环意味着 TensorRT-LLM、CUDA 和其他核心加速计算技术的每项改进都会立即使 NIM 用户受益。更新通过 NIM 微服务容器的更新无缝集成和交付,消除了手动配置的需求,并减少了通常与维护高性能推理解决方案相关的工程开销。


  • 咨询热线
  • 4001616691