咨询热线 4001616691
联系我们 中国大陆 CNY

新闻中心

NVIDIA Dynamo 全栈优化:为智能体推理打造 KV 缓存加速引擎 NEWS DETAIL

当前位置:首页 > 新闻中心
资讯分类 · 新闻中心 发布时间 · 2026-06-23

编码智能体正在大规模编写生产代码——Stripe 每周生成 1,300+ PR,Spotify 每月 650+ 代理生成 PR。这些工作负载背后是承受巨大 KV 缓存压力的推理栈。NVIDIA Dynamo 通过三层优化使推理栈原生适配智能体工作负载。

第一层是多协议前端,支持 v1/responses、v1/messages 和 v1/chat/completions 端点。第二层是路由与调度层,通过智能前缀匹配最大化 KV 缓存复用率。第三层是 KV 缓存管理层,采用写入一次读取多次的访问模式优化,使缓存命中率达 85-97%。

开发者可通过 Dynamo 部署 GLM、MiniMax 等模型,将其作为 Claude Code 和 Codex 等编码智能体的推理后端,大幅提升智能体工作负载的推理效率。