NVIDIA 发布模型量化新工具：Model Optimizer 实现高效 AI 推理优化 | 新闻中心

模型量化是一种有效减少显存占用并提升推理性能的方法。通过降低计算和内存需求同时保持模型质量，量化帮助 AI 模型在资源受限环境中更高效地运行。NVIDIA Model Optimizer（ModelOpt）库集成了最先进的模型优化技术，包括量化、蒸馏、剪枝、推测解码和稀疏化，可接受 Hugging Face、PyTorch 或 ONNX 格式的模型作为输入。

ModelOpt 支持 FP4、FP8、INT8 和 INT4 等多种高性能量化格式，以及 SmoothQuant、AWQ、SVDQuant 和 Double Quantization 等先进算法。同时支持训练后量化（PTQ）和量化感知训练（QAT）。本文以 CLIP 模型的 FP8 PTQ 量化为例，详细演示了整个流程。

量化流程包括六个阶段：准备阶段配置量化参数以插入量化器模块；校准阶段将少量代表性数据前向传播以收集统计信息；伪量化阶段在浮点数中模拟量化的精度损失；评估阶段与未量化基线对比精度；迭代阶段根据精度差距调整配置；导出阶段将伪量化权重压缩为真正的低精度格式。

在 CLIP 模型上的评测显示，FP8 量化模型与 FP16 基线模型质量相当。当在 patch embedding 层禁用量化器时，量化对模型质量的影响几乎可以忽略。导出的量化模型可通过 TensorRT 等部署框架实现真正的加速和显存节省。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

NVIDIA 发布模型量化新工具：Model Optimizer 实现高效 AI 推理优化 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询