咨询热线 4001616691
联系我们 中国大陆 CNY

新闻中心

NVIDIA Dynamo Snapshot 发布:Kubernetes 上推理工作负载秒级启动 NEWS DETAIL

当前位置:首页 > 新闻中心
资讯分类 · 新闻中心 发布时间 · 2026-06-23

在生产推理部署中,需求随时间波动,推理副本需要弹性伸缩。然而在 Kubernetes 上冷启动推理工作负载可能需要数分钟,期间 GPU 已分配但处于空闲状态。NVIDIA Dynamo Snapshot 通过检查点/恢复机制解决了这一问题。

Dynamo Snapshot 结合了 CUDA 驱动级的检查点能力和 CRIU 工具,可对推理工作进程的完整状态(GPU 设备状态和 CPU 主机状态)进行序列化和恢复。当需要新副本时,直接从检查点恢复,而非从零初始化,使启动时间接近物理极限。

在 Kubernetes 环境中,Dynamo Snapshot 支持跨节点的检查点分发和恢复。该技术使推理集群能够在流量高峰时快速扩展,避免 SLA 违规风险。