重新思考AI TCO：为何每Token成本才是唯一重要的指标 | 新闻中心 | 中科新远｜NVIDIA Networking、Mellanox 与 AI 数据中心网络解决方案

传统数据中心时代，衡量基础设施经济效益的核心指标相对直接：算力成本，以及每美元所能购买的浮点运算性能。这两项指标关注的是硬件本身的投入与理论峰值能力。然而，在生成式人工智能时代，业务逻辑发生了根本性变化。AI基础设施的最终输出不是浮点运算次数，而是能够直接服务于应用、产生商业价值的Token。因此，衡量AI基础设施经济效益的关键指标，必须从原始的算力投入转向单位Token的实际成本。

算力成本代表了企业为获得AI计算能力而支付的费用，这是一个典型的投入侧指标。每美元FLOPS则用于衡量单位货币能换取多少理论计算峰值，同样聚焦于资源采购环节。问题是，原始算力并不等同于现实世界中模型推理产生的Token产出。当企业的商业模式、客户体验和营收都围绕Token产出运转时，单纯优化投入指标，即只关注如何降低GPU采购价格或提升理论FLOPS，会导致根本性的投入产出错配。真正有意义的是每Token成本，即生成每一个有用输出所需的综合基础设施支出。

以DeepSeek-R1模型为例，可以清晰看到这种指标切换带来的经济性差异。NVIDIA Blackwell架构与上一代Hopper架构相比，其GPU小时成本大约是Hopper的2倍。如果只看算力成本这一传统指标，Blackwell似乎并不具备优势。然而，当考察每瓦Token产出量这一能效与产出相结合的关键参数时，Blackwell的表现是Hopper的50倍以上。这种代际间的能效与产出效率的巨大跃升，直接反映在每百万Token的成本上：从Hopper平台的约4.20美元急剧下降至Blackwell平台的约0.12美元，降幅高达约35倍。这意味着，在几乎相同的电力预算下，Blackwell可以驱动数十倍以上的Token产出，或者为了生成相同数量的Token，基础设施总拥有成本可以压缩到原来的数十分之一。

要有效优化每Token成本，核心策略不是单纯依赖压低单个GPU的采购或租赁价格，而是最大化每一计算资源单位能够产生的实际Token产出量。低价但低效的计算资源，如果单位产出低下，反而会导致更高的每Token成本。实现行业最低Token成本的关键，在于计算、网络、内存、存储与软件的全栈协同设计。计算层面需要高吞吐、低延迟的架构；网络必须消除数据搬移瓶颈；内存和存储带宽需匹配计算的消耗速度；而软件栈则是将硬件潜能转化为实际Token产出的放大器。NVIDIA的方案正是基于这种协同设计，通过优化每一个环节的利用率与数据流动效率，实现了从硅片到Token的端到端效率最大化。

此外，软件优化的持续进步为降低每Token成本提供了另一条关键路径。开源推理软件生态的活跃发展，例如vLLM与TensorRT-LLM，正在不断刷新Token产出的效率上限。vLLM通过高效的内存管理算法，显著提升了推理过程的吞吐量并降低了显存占用；TensorRT-LLM则通过深度优化的内核执行与计算图级融合，大幅加快了Token生成速度。随着此类推理引擎的持续迭代，在不更换任何硬件的前提下，同一批GPU集群能产出的Token数量也在稳步提升。因此，对于AI基础设施的经济效益评估，需要从传统的算力投入指标完全转向每Token成本这一核心标尺，并采取全栈协同与软件持续优化的策略，才能使每一美元投入转化为尽可能多的实际业务产出。

。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

重新思考AI TCO：为何每Token成本才是唯一重要的指标 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询