立即咨询

NVIDIA Dynamo 全栈优化：为智能体推理打造 KV 缓存加速引擎 NEWS DETAIL

当前位置：首页 > 新闻中心

资讯分类 · 新闻中心发布时间 · 2026-06-23

编码智能体正在大规模编写生产代码——Stripe 每周生成 1,300+ PR，Spotify 每月 650+ 代理生成 PR。这些工作负载背后是承受巨大 KV 缓存压力的推理栈。NVIDIA Dynamo 通过三层优化使推理栈原生适配智能体工作负载。

第一层是多协议前端，支持 v1/responses、v1/messages 和 v1/chat/completions 端点。第二层是路由与调度层，通过智能前缀匹配最大化 KV 缓存复用率。第三层是 KV 缓存管理层，采用写入一次读取多次的访问模式优化，使缓存命中率达 85-97%。

开发者可通过 Dynamo 部署 GLM、MiniMax 等模型，将其作为 Claude Code 和 Codex 等编码智能体的推理后端，大幅提升智能体工作负载的推理效率。

上一篇：NVIDIA Nemotron Speech 助力临床语音识别：Agent Skills 加速医疗 ASR 评估

下一篇：NVIDIA 与微软联手：在 Windows PC 上构建个人 AI 智能体