传统数据中心过去主要用于数据的存储、检索与处理。但在生成式 AI 与代理式 AI 时代,这些设施已演变为 AI Token 工厂。随着 AI 推理成为其核心工作负载,它们的主要产出已转变为以 Token 形式制造的智能。
这一转变也需要对包括总体拥有成本(TCO)在内的 AI 基础设施的经济效益评估方式相应地进行调整。然而,在评估 AI 基础设施时,企业仍过于关注芯片峰值规格、计算成本,或每美元所能获得的浮点运算性能,即每美元 FLOPS。
关键区别在于:算力成本是企业为 AI 基础设施所支付的费用;每美元 FLOPS 衡量的是企业每投入一美元所获得的原始算力,但原始算力并不等同于现实世界中的 Token 产出;每 Token 成本指的是企业生成并交付每一个 Token 的综合成本。前两者仅是投入指标,但当业务围绕产出运转时,只针对投入优化,本质上是一种根本性的错配。
每 Token 成本决定了企业能否实现 AI 的规模化盈利。它是唯一能够直接综合反映硬件性能、软件优化、生态系统支持以及实际利用率的 TCO 指标。降低每 Token 成本的关键在于最大化实际交付的 Token 产出,这传递了两层商业含义:最小化每 Token 成本可提升每一次交互服务的利润空间;最大化每秒 Token 交付量,意味着更高收入。
NVIDIA 通过在计算、网络、内存、存储、软件以及合作伙伴技术上的极致协同设计,实现了业内最低的 Token 成本与最高的 Token 吞吐量。基于 NVIDIA 平台构建的开源推理软件的持续优化,意味着在现有 NVIDIA 基础设施部署后,Token 产出仍可不断提升,每 Token 成本会持续下降。
WeChat
Profile