传统数据中心评估指标是算力成本和每美元FLOPS,但在AI时代,每Token成本才是衡量AI基础设施经济效益的唯一关键指标。
算力成本是企业为AI基础设施支付的费用,而每美元FLOPS衡量的是原始算力,但原始算力并不等同于现实世界的Token产出。当业务围绕产出运转时,只优化投入指标是根本性的错配。
以DeepSeek-R1模型为例,NVIDIA Blackwell的GPU小时成本约是Hopper的2倍,但每瓦Token产出量是Hopper的50倍以上,每百万Token成本从4.20美元降至0.12美元——降低约35倍。
要优化每Token成本,关键在于最大化实际Token产出,而非单纯压低GPU成本。NVIDIA在计算、网络、内存、存储、软件上的协同设计,实现了行业最低的Token成本。vLLM、TensorRT-LLM等开源推理软件的持续优化,使Token产出可不断提升。
文章来源:NVIDIA英伟达博客
WeChat
Profile