咨询热线 4001616691
联系我们 中国大陆 CNY

新闻中心

NVIDIA 发布 Nemotron 3 Nano Omni:统一多模态推理的轻量级开源 MoE 模型 NEWS DETAIL

当前位置:首页 > 新闻中心
资讯分类 · 新闻中心 发布时间 · 2026-05-20

智能体系统经常需要在感知到行动的单一循环中处理屏幕、文档、音频、视频和文本等多种输入。然而,当前大多数系统仍依赖碎片化的模型链——分别使用视觉、音频和文本模型堆栈,导致推理跳数增加、编排复杂度上升,同时降低了跨模态上下文的一致性。

NVIDIA 最新推出的 Nemotron 3 Nano Omni 正是为解决这一问题而生。作为 Nemotron 3 家族的新成员,这款 30B-A3B 混合专家(MoE)模型将统一的多模态推理能力整合到单个高效开源模型中,帮助智能体系统在统一的感知到行动循环中处理视觉、音频和文本输入,从而改善收敛性、降低编排复杂度和推理成本。

在性能方面,Nemotron 3 Nano Omni 在文档智能排行榜(如 MMlongbench-Doc 和 OCRBenchV2)上取得了最佳精度,同时在视频理解、音频理解及 WorldSense、DailyOmni、VoiceBench 等多个基准测试中名列前茅。在推理效率方面,同等交互性能阈值下,Nemotron 3 Nano Omni 在视频推理任务中可提供高达约 9.2 倍的有效系统容量,在多文档推理中可达约 7.4 倍。

Nemotron 3 Nano Omni 采用混合 MoE 核心架构,结合 Mamba 层(用于序列和内存效率)与 Transformer 层(用于精确推理),相比纯 Transformer 架构可提供高达 4 倍的内存和计算效率提升。在视觉处理方面,模型使用三维卷积捕捉帧间运动,并通过高效的视频采样层将多帧的高密度视觉 Token 压缩为 LLM 可处理的精简集合。

音频方面,Nemotron 3 Nano Omni 基于 NVIDIA Parakeet 编码器和专业数据集,超越了简单的语音转文本能力。视觉方面,C-RADIOv4-H 基础模型以高分辨率处理图像,在保持高分辨率细节和高效计算之间取得平衡。

模型采用多阶段训练策略:先进行适配器和编码器训练(覆盖文档、截图、音频和视频的大规模数据),再通过监督微调逐步扩展模态覆盖范围,最后使用超过 230 万次环境回滚的强化学习提升多模态任务和智能体工作流的鲁棒性。

Nemotron 3 Nano Omni 完全开源,权重、数据集和训练配方均可获取。开发者可使用 Hugging Face 上的权重,或通过 NVIDIA NIM 微服务部署。模型支持 vLLM、SGLang 和 NVIDIA TensorRT-LLM 等多种推理引擎,并可在 Ampere、Hopper 和 Blackwell GPU 架构上运行。配合 OpenShell 运行环境和 OpenClaw 代理框架,Nemotron 3 Nano Omni 可在本地实现隐私优先的视频理解、精准问答和多模态文档处理等应用。