咨询热线 4001616691
联系我们 中国大陆 CNY

新闻中心

30 行 Python 代码节省数十万美元:NVIDIA nvCOMP 实现 LLM 检查点无损压缩 NEWS DETAIL

当前位置:首页 > 新闻中心
资讯分类 · 新闻中心 发布时间 · 2026-05-20

训练大语言模型需要定期保存检查点,包含模型权重、优化器状态和梯度的完整快照。在大规模训练中,这些检查点体积惊人——70B 模型的单个检查点达 782 GB,且每 15-30 分钟保存一次,成为训练预算中最大的开支项之一。

NVIDIA 的研究表明,在 128 张 Blackwell GPU 上训练 405B 模型时,同步检查点的 GPU 空闲等待成本每月高达 20 万美元。而引入基于 NVIDIA nvCOMP 的无损压缩方案,仅需约 30 行 Python 代码,即可将存储成本降低 5.6 万美元/月。

NVIDIA nvCOMP 是一个 GPU 加速的无损压缩库,在检查点离开 GPU 内存之前就进行压缩,无需 CPU 往返和额外数据移动。该库支持 Zstandard 和 GPU 专用 gANS 格式两种算法。稠密模型压缩比约 1.25-1.27×,MoE 模型可达 1.39-1.40×。

集成只需约 30 行 Python 代码,作为 torch.save/torch.load 的即插即用替代。