编码智能体正在大规模编写生产代码——Stripe 每周生成 1,300+ PR,Spotify 每月 650+ 代理生成 PR。这些工作负载背后是承受巨大 KV 缓存压力的推理栈。NVIDIA Dynamo 通过三层优化使推理栈原生适配智能体工作负载。
第一层是多协议前端,支持 v1/responses、v1/messages 和 v1/chat/completions 端点。第二层是路由与调度层,通过智能前缀匹配最大化 KV 缓存复用率。第三层是 KV 缓存管理层,采用写入一次读取多次的访问模式优化,使缓存命中率达 85-97%。
开发者可通过 Dynamo 部署 GLM、MiniMax 等模型,将其作为 Claude Code 和 Codex 等编码智能体的推理后端,大幅提升智能体工作负载的推理效率。
WeChat
Profile