NVIDIA 详解解耦式 LLM 推理：在 Kubernetes 上部署分离式推理工作负载 NEWS DETAIL

资讯分类 · 新闻中心发布时间 · 2026-06-23

随着大语言模型推理工作负载日益复杂，单一的整体服务进程开始触及极限。预填充和解码阶段具有根本不同的计算特征，传统部署将它们强制运行在同一硬件上，导致 GPU 利用率低下。解耦式推理通过将推理流水线拆分为预填充、解码和路由等独立服务来解决这一问题。

解耦架构的三大优势：每个阶段可匹配不同的 GPU 资源和优化策略；预填充和解码可独立扩缩容；KV 缓存在预填充和解码工作节点间高效路由。预填充工作节点是计算密集型，解码工作节点受内存带宽限制，路由网关负责请求分发和负载均衡。