NVIDIA 发布 Nemotron 3 Nano Omni：统一多模态推理的轻量级开源 MoE 模型 | 新闻中心

智能体系统经常需要在感知到行动的单一循环中处理屏幕、文档、音频、视频和文本等多种输入。然而，当前大多数系统仍依赖碎片化的模型链——分别使用视觉、音频和文本模型堆栈，导致推理跳数增加、编排复杂度上升，同时降低了跨模态上下文的一致性。

NVIDIA 最新推出的 Nemotron 3 Nano Omni 正是为解决这一问题而生。作为 Nemotron 3 家族的新成员，这款 30B-A3B 混合专家（MoE）模型将统一的多模态推理能力整合到单个高效开源模型中，帮助智能体系统在统一的感知到行动循环中处理视觉、音频和文本输入，从而改善收敛性、降低编排复杂度和推理成本。

在性能方面，Nemotron 3 Nano Omni 在文档智能排行榜（如 MMlongbench-Doc 和 OCRBenchV2）上取得了最佳精度，同时在视频理解、音频理解及 WorldSense、DailyOmni、VoiceBench 等多个基准测试中名列前茅。在推理效率方面，同等交互性能阈值下，Nemotron 3 Nano Omni 在视频推理任务中可提供高达约 9.2 倍的有效系统容量，在多文档推理中可达约 7.4 倍。

Nemotron 3 Nano Omni 采用混合 MoE 核心架构，结合 Mamba 层（用于序列和内存效率）与 Transformer 层（用于精确推理），相比纯 Transformer 架构可提供高达 4 倍的内存和计算效率提升。在视觉处理方面，模型使用三维卷积捕捉帧间运动，并通过高效的视频采样层将多帧的高密度视觉 Token 压缩为 LLM 可处理的精简集合。

音频方面，Nemotron 3 Nano Omni 基于 NVIDIA Parakeet 编码器和专业数据集，超越了简单的语音转文本能力。视觉方面，C-RADIOv4-H 基础模型以高分辨率处理图像，在保持高分辨率细节和高效计算之间取得平衡。

模型采用多阶段训练策略：先进行适配器和编码器训练（覆盖文档、截图、音频和视频的大规模数据），再通过监督微调逐步扩展模态覆盖范围，最后使用超过 230 万次环境回滚的强化学习提升多模态任务和智能体工作流的鲁棒性。

Nemotron 3 Nano Omni 完全开源，权重、数据集和训练配方均可获取。开发者可使用 Hugging Face 上的权重，或通过 NVIDIA NIM 微服务部署。模型支持 vLLM、SGLang 和 NVIDIA TensorRT-LLM 等多种推理引擎，并可在 Ampere、Hopper 和 Blackwell GPU 架构上运行。配合 OpenShell 运行环境和 OpenClaw 代理框架，Nemotron 3 Nano Omni 可在本地实现隐私优先的视频理解、精准问答和多模态文档处理等应用。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

NVIDIA 发布 Nemotron 3 Nano Omni：统一多模态推理的轻量级开源 MoE 模型 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询