电力成本在AI工厂的运营支出中占比高达40%。每一瓦特电力都可用于系统开销、数据输入、模型训练或为客户生成Token。而大多数数据中心都受限于区域供电的固定功率上限。在这种条件下,性能每瓦特(Performance per Watt)成为直接影响Token成本的关键效率指标。
NVIDIA在AI推理工作负载中实现了最低的每Token成本,在大模型训练中也做到了最低成本。这得益于在功耗、散热和系统基础设施方面的极致协同设计,以及与OEM、ODM、CSP和ISV等生态合作伙伴的深度协作。推理是驱动收入的核心工作负载,当运营商提升每瓦特的推理吞吐量时,就等于直接增加了可销售的Token数量或可生成的分析洞察。
在百兆瓦到千兆瓦规模的数据中心中,每兆瓦吞吐量即使只有几个百分点的提升,也能转化为可观的利润增长。模型架构本身也至关重要。混合专家模型(MoE)相比参数总量相近的密集模型,每单位智能的能耗通常更低,因为每个Token只激活部分专家。例如DeepSeek-R1参数规模庞大,但每个Token仅激活其中一小部分,在相同或更低的每Token计算成本下实现了更高的任务性能。
NVIDIA平台在每一代架构中都持续提升每瓦特产出的智能量。GB200 NVL72机架级系统通过极致协同设计提升能效,采用密集的直接到芯片液冷架构。DSX平台则是一个开放的AI工厂级平台,提供动态功率分配、实时遥测和高级机架级控制,能够回收被浪费的电力并增加每瓦特的Token产出。在精度选择方面,NVFP4等窄精度格式相比FP8在同等精度下更节能、吞吐量更高。
在大模型训练方面,密歇根大学ML.ENERGY团队的研究表明,通过调整单个GPU的处理速度,可以显著降低大模型训练中的能量浪费。关键路径上的GPU以最高速度运行,而任务较少的GPU则有意降低速度,从而让提前完成的GPU空闲时间最小化,低速度运行的GPU能耗更低,且端到端训练时间保持不变。Megatron-LM作为NVIDIA开源的超大规模语言模型训练参考实现,正在与ML.ENERGY团队合作,通过细粒度内核和阶段级能耗分析,识别计算、内存、通信和功耗受限区域,并据此设计能耗感知的调度和GPU频率/功率上限调优方案,旨在实现约25%的能效提升。
NVIDIA DSX平台为AI工厂提供了端到端的能效优化能力。DSX MaxLPS通过45°C液冷技术提升PUE、动态功率分配实时监测GPU和机架级功耗并将其重新分配到最需要的地方,以及功耗转向和优化工作负载配置等先进技术,最大化AI工厂吞吐量。DSX Flex则作为电网感知的功率编排层,将AI工厂连接到电网信号和外部能源。通过将工作负载放置、调度和功率分配与最高效的计算和散热区域对齐,运营商可以在基础设施级增益之上叠加工作负载级优化——在固定功率预算内重新平衡工作负载,识别可以通过更高效配置降低功耗的工作负载,优先分配每Token收入更高的高价值工作负载。经过优化的AI工厂相比未优化的工厂,每兆瓦每秒的Token产出可提升高达2.6倍。
WeChat
Profile