NVIDIA 推出 DiffusionGemma 部署方案，加速实时 AI 文本生成落地 | 新闻中心

面向聊天助手、编程 Copilot 和智能体工作流等实时 AI 应用，文本生成速度往往直接决定交互体验与服务成本。NVIDIA 在 2026 年 6 月 10 日发布的技术文章中介绍，DiffusionGemma 采用不同于传统自回归模型的生成方式，可在单步中并行生成 256 个 token，以提升整体吞吐能力。

根据 NVIDIA 披露的信息，DiffusionGemma 由 Google DeepMind 创建，并已针对 NVIDIA 平台完成优化。在性能方面，该模型在单张 NVIDIA H100 Tensor Core GPU 上可达到每秒最高 1000 token，在 NVIDIA DGX Spark 上最高约 150 token/s，在 NVIDIA DGX Station 上最高可达 2000 token/s。这类能力有助于开发者在保持模型质量的同时，进一步改善响应速度、并发能力和推理成本。

从模型规格来看，DiffusionGemma 支持文本和图像模态，总参数量为 252 亿，激活参数为 38 亿，最长上下文可达 256K token，支持 BF16 与 NVFP4 精度格式。NVIDIA 还给出了面向不同部署环境的适配路径，包括用于本地开发与原型验证的 DGX Spark、适合桌边高性能开发的 DGX Station，以及面向桌面 AI 应用与本地推理的 RTX 与 RTX PRO 平台。

在开发流程上，开发者可以先通过 Hugging Face Transformers 在 GeForce RTX 5090 或 DGX Spark 上进行测试与原型构建；若需要更高吞吐或多用户并发服务，则可结合 vLLM 在 DGX Spark、DGX Station 或 RTX PRO 环境中部署。NVIDIA 同时提供了 build.nvidia.com 上的 GPU 加速接口，供开发者进行免费原型验证。

面向生产环境，NVIDIA 将 DiffusionGemma 接入 NVIDIA NIM，以容器化推理微服务的方式简化部署。通过标准化 API、性能调优能力以及本地、云端、混合环境的适配，企业可以更快把模型从实验阶段推向正式业务。对于有行业微调需求的团队，NVIDIA 还提供了基于 NeMo AutoModel 的微调指南与配方，帮助开发者直接围绕 Hugging Face 权重开展适配工作。

整体来看，DiffusionGemma 的意义不仅在于模型本身，更在于它为高吞吐、低延迟文本生成提供了新的工程路径。对希望构建实时智能体、交互式助手和企业级生成式 AI 服务的团队而言，这套围绕 NVIDIA 硬件与软件栈的部署方案，能够帮助其更快完成从原型验证到生产落地的过渡。

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

NVIDIA 推出 DiffusionGemma 部署方案，加速实时 AI 文本生成落地 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询