从RTX到Spark：NVIDIA为本地代理式AI加速Gemma 4 | 新闻中心 | 中科新远

Google与NVIDIA宣布达成技术合作，将Gemma 4开放模型针对NVIDIA GPU进行全面优化，覆盖从数据中心到终端设备的全系列硬件，包括NVIDIA RTX PC和工作站、DGX Spark个人AI超级计算机，以及Jetson Orin Nano边缘AI模块。这一合作标志着开放模型从云端向本地设备的大规模迁移正在加速推进。

Gemma 4是Google DeepMind推出的新一代开源模型家族，基于Gemini 3同源技术构建，采用Apache 2.0许可协议，允许免费商用。该系列包含四种变体：E2B、E4B、26B和31B，分别针对不同的部署场景和硬件配置进行了专门设计。E2B和E4B模型专为超高效、低延迟的边缘推理打造，可在包括Jetson Nano模块在内的多种设备上完全离线运行，实现接近零延迟的推理响应。E2B有效参数为2.3B，E4B有效参数为4.5B，两者均采用Per-Layer Embeddings技术，在保持小体积的同时具备更强的表示能力。这两款模型支持文本、图像和音频输入，上下文窗口达128K，特别适合手机、物联网设备和边缘计算场景。

26B和31B模型则专为高性能推理和开发者工作流设计，非常适合代理式AI任务。其中26B采用混合专家架构，总参数26B但每次前向传播仅激活约3.8B参数，在Q4量化下最低仅需18GB显存即可运行完整256K上下文，是本地部署的黄金平衡点。31B为密集模型，总参数30.7B，在Q4量化下约需20GB显存起步，随上下文扩展至256K时需40GB显存，提供当前最强的推理质量。两款大模型均支持文本、图像和视频输入，上下文窗口达256K，能够处理长篇文档和复杂多轮对话。Gemma 4全系列支持超过35种语言的直接使用，并在超过140种语言数据上进行了预训练，具备强大的多语言能力。

在部署体验方面，NVIDIA已与Ollama和llama.cpp深度合作，为各Gemma 4模型提供最佳本地部署方案。用户可通过Ollama一键运行Gemma 4模型，或安装llama.cpp配合GGUF格式的Hugging Face checkpoint进行量化部署。Unsloth也提供首日支持，通过Unsloth Studio提供经过优化和量化的模型，支持高效的本地微调和部署。此外，Gemma 4已兼容OpenClaw等本地代理AI平台，允许用户构建能够访问个人文件、应用程序和工作流程上下文的本地智能体，实现任务自动化。在Jetson Orin Nano上，开发者已成功实现Gemma 4作为视觉语言智能体的完整演示——模型能够自主决定何时需要调用摄像头获取视觉信息来回答用户问题，实现语音识别、视觉理解与语音合成的闭环交互。

CUDA软件栈在此次优化中发挥着关键作用。NVIDIA Tensor Core可加速AI推理工作负载，为本地执行提供更高吞吐量和更低延迟。CUDA软件栈确保与主流框架和工具的广泛兼容性，使新模型从发布首日起就能高效运行。这套组合使得Gemma 4等开放模型可在从边缘Jetson设备到RTX PC、工作站和DGX Spark的广泛系统上扩展部署，无需深度优化即可覆盖多种硬件场景。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

从RTX到Spark：NVIDIA为本地代理式AI加速Gemma 4 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询