咨询热线 4001616691
联系我们 中国大陆 CNY

新闻中心

NVIDIA 详解解耦式 LLM 推理:在 Kubernetes 上部署分离式推理工作负载 NEWS DETAIL

当前位置:首页 > 新闻中心
资讯分类 · 新闻中心 发布时间 · 2026-06-23

随着大语言模型推理工作负载日益复杂,单一的整体服务进程开始触及极限。预填充和解码阶段具有根本不同的计算特征,传统部署将它们强制运行在同一硬件上,导致 GPU 利用率低下。解耦式推理通过将推理流水线拆分为预填充、解码和路由等独立服务来解决这一问题。

解耦架构的三大优势:每个阶段可匹配不同的 GPU 资源和优化策略;预填充和解码可独立扩缩容;KV 缓存在预填充和解码工作节点间高效路由。预填充工作节点是计算密集型,解码工作节点受内存带宽限制,路由网关负责请求分发和负载均衡。

NVIDIA 的技术文章详细介绍了如何在 Kubernetes 上部署解耦式推理,包括不同生态系统方案的对比和集群执行评估,为团队选择最优推理架构提供参考。