传统数据中心时代,衡量基础设施经济效益的核心指标相对直接:算力成本,以及每美元所能购买的浮点运算性能。这两项指标关注的是硬件本身的投入与理论峰值能力。然而,在生成式人工智能时代,业务逻辑发生了根本性变化。AI基础设施的最终输出不是浮点运算次数,而是能够直接服务于应用、产生商业价值的Token。因此,衡量AI基础设施经济效益的关键指标,必须从原始的算力投入转向单位Token的实际成本。
算力成本代表了企业为获得AI计算能力而支付的费用,这是一个典型的投入侧指标。每美元FLOPS则用于衡量单位货币能换取多少理论计算峰值,同样聚焦于资源采购环节。问题是,原始算力并不等同于现实世界中模型推理产生的Token产出。当企业的商业模式、客户体验和营收都围绕Token产出运转时,单纯优化投入指标,即只关注如何降低GPU采购价格或提升理论FLOPS,会导致根本性的投入产出错配。真正有意义的是每Token成本,即生成每一个有用输出所需的综合基础设施支出。
以DeepSeek-R1模型为例,可以清晰看到这种指标切换带来的经济性差异。NVIDIA Blackwell架构与上一代Hopper架构相比,其GPU小时成本大约是Hopper的2倍。如果只看算力成本这一传统指标,Blackwell似乎并不具备优势。然而,当考察每瓦Token产出量这一能效与产出相结合的关键参数时,Blackwell的表现是Hopper的50倍以上。这种代际间的能效与产出效率的巨大跃升,直接反映在每百万Token的成本上:从Hopper平台的约4.20美元急剧下降至Blackwell平台的约0.12美元,降幅高达约35倍。这意味着,在几乎相同的电力预算下,Blackwell可以驱动数十倍以上的Token产出,或者为了生成相同数量的Token,基础设施总拥有成本可以压缩到原来的数十分之一。
要有效优化每Token成本,核心策略不是单纯依赖压低单个GPU的采购或租赁价格,而是最大化每一计算资源单位能够产生的实际Token产出量。低价但低效的计算资源,如果单位产出低下,反而会导致更高的每Token成本。实现行业最低Token成本的关键,在于计算、网络、内存、存储与软件的全栈协同设计。计算层面需要高吞吐、低延迟的架构;网络必须消除数据搬移瓶颈;内存和存储带宽需匹配计算的消耗速度;而软件栈则是将硬件潜能转化为实际Token产出的放大器。NVIDIA的方案正是基于这种协同设计,通过优化每一个环节的利用率与数据流动效率,实现了从硅片到Token的端到端效率最大化。
此外,软件优化的持续进步为降低每Token成本提供了另一条关键路径。开源推理软件生态的活跃发展,例如vLLM与TensorRT-LLM,正在不断刷新Token产出的效率上限。vLLM通过高效的内存管理算法,显著提升了推理过程的吞吐量并降低了显存占用;TensorRT-LLM则通过深度优化的内核执行与计算图级融合,大幅加快了Token生成速度。随着此类推理引擎的持续迭代,在不更换任何硬件的前提下,同一批GPU集群能产出的Token数量也在稳步提升。因此,对于AI基础设施的经济效益评估,需要从传统的算力投入指标完全转向每Token成本这一核心标尺,并采取全栈协同与软件持续优化的策略,才能使每一美元投入转化为尽可能多的实际业务产出。
。
WeChat
Profile