NVIDIA全栈优化助力AI工厂能效提升：每瓦特产出更多Token

电力成本在AI工厂的运营支出中占比高达40%。每一瓦特电力都可用于系统开销、数据输入、模型训练或为客户生成Token。而大多数数据中心都受限于区域供电的固定功率上限。在这种条件下，性能每瓦特（Performance per Watt）成为直接影响Token成本的关键效率指标。NVIDIA在AI推理工作负载中实现了最低的每Token成本，在大模型训

解决方案

SOLUTION OVERVIEW

NVIDIA全栈优化助力AI工厂能效提升：每瓦特产出更多Token

方案分类 解决方案
内容形式 场景方案 / 技术解析
服务支持 咨询、测试申请、实施建议

咨询顾问返回方案库

如果你正在评估对应场景，我们可以基于当前方案继续细化产品组合、测试路径与实施节奏。

浏览更多相关方案

DETAIL MODULES

方案详情

查看方案背景、关键能力与适配场景，帮助你更快判断下一步应进入测试、咨询还是部署阶段。

电力成本在AI工厂的运营支出中占比高达40%。每一瓦特电力都可用于系统开销、数据输入、模型训练或为客户生成Token。而大多数数据中心都受限于区域供电的固定功率上限。在这种条件下，性能每瓦特（Performance per Watt）成为直接影响Token成本的关键效率指标。

NVIDIA在AI推理工作负载中实现了最低的每Token成本，在大模型训练中也做到了最低成本。这得益于在功耗、散热和系统基础设施方面的极致协同设计，以及与OEM、ODM、CSP和ISV等生态合作伙伴的深度协作。推理是驱动收入的核心工作负载，当运营商提升每瓦特的推理吞吐量时，就等于直接增加了可销售的Token数量或可生成的分析洞察。

在百兆瓦到千兆瓦规模的数据中心中，每兆瓦吞吐量即使只有几个百分点的提升，也能转化为可观的利润增长。模型架构本身也至关重要。混合专家模型（MoE）相比参数总量相近的密集模型，每单位智能的能耗通常更低，因为每个Token只激活部分专家。例如DeepSeek-R1参数规模庞大，但每个Token仅激活其中一小部分，在相同或更低的每Token计算成本下实现了更高的任务性能。

NVIDIA平台在每一代架构中都持续提升每瓦特产出的智能量。GB200 NVL72机架级系统通过极致协同设计提升能效，采用密集的直接到芯片液冷架构。DSX平台则是一个开放的AI工厂级平台，提供动态功率分配、实时遥测和高级机架级控制，能够回收被浪费的电力并增加每瓦特的Token产出。在精度选择方面，NVFP4等窄精度格式相比FP8在同等精度下更节能、吞吐量更高。

在大模型训练方面，密歇根大学ML.ENERGY团队的研究表明，通过调整单个GPU的处理速度，可以显著降低大模型训练中的能量浪费。关键路径上的GPU以最高速度运行，而任务较少的GPU则有意降低速度，从而让提前完成的GPU空闲时间最小化，低速度运行的GPU能耗更低，且端到端训练时间保持不变。Megatron-LM作为NVIDIA开源的超大规模语言模型训练参考实现，正在与ML.ENERGY团队合作，通过细粒度内核和阶段级能耗分析，识别计算、内存、通信和功耗受限区域，并据此设计能耗感知的调度和GPU频率/功率上限调优方案，旨在实现约25%的能效提升。

NVIDIA DSX平台为AI工厂提供了端到端的能效优化能力。DSX MaxLPS通过45°C液冷技术提升PUE、动态功率分配实时监测GPU和机架级功耗并将其重新分配到最需要的地方，以及功耗转向和优化工作负载配置等先进技术，最大化AI工厂吞吐量。DSX Flex则作为电网感知的功率编排层，将AI工厂连接到电网信号和外部能源。通过将工作负载放置、调度和功率分配与最高效的计算和散热区域对齐，运营商可以在基础设施级增益之上叠加工作负载级优化——在固定功率预算内重新平衡工作负载，识别可以通过更高效配置降低功耗的工作负载，优先分配每Token收入更高的高价值工作负载。经过优化的AI工厂相比未优化的工厂，每兆瓦每秒的Token产出可提升高达2.6倍。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

解决方案

NVIDIA全栈优化助力AI工厂能效提升：每瓦特产出更多Token

NVIDIA全栈优化助力AI工厂能效提升：每瓦特产出更多Token

方案详情

产品中心

解决方案

服务支持

联系与咨询