面向聊天助手、编程 Copilot 和智能体工作流等实时 AI 应用,文本生成速度往往直接决定交互体验与服务成本。NVIDIA 在 2026 年 6 月 10 日发布的技术文章中介绍,DiffusionGemma 采用不同于传统自回归模型的生成方式,可在单步中并行生成 256 个 token,以提升整体吞吐能力。
根据 NVIDIA 披露的信息,DiffusionGemma 由 Google DeepMind 创建,并已针对 NVIDIA 平台完成优化。在性能方面,该模型在单张 NVIDIA H100 Tensor Core GPU 上可达到每秒最高 1000 token,在 NVIDIA DGX Spark 上最高约 150 token/s,在 NVIDIA DGX Station 上最高可达 2000 token/s。这类能力有助于开发者在保持模型质量的同时,进一步改善响应速度、并发能力和推理成本。
从模型规格来看,DiffusionGemma 支持文本和图像模态,总参数量为 252 亿,激活参数为 38 亿,最长上下文可达 256K token,支持 BF16 与 NVFP4 精度格式。NVIDIA 还给出了面向不同部署环境的适配路径,包括用于本地开发与原型验证的 DGX Spark、适合桌边高性能开发的 DGX Station,以及面向桌面 AI 应用与本地推理的 RTX 与 RTX PRO 平台。
在开发流程上,开发者可以先通过 Hugging Face Transformers 在 GeForce RTX 5090 或 DGX Spark 上进行测试与原型构建;若需要更高吞吐或多用户并发服务,则可结合 vLLM 在 DGX Spark、DGX Station 或 RTX PRO 环境中部署。NVIDIA 同时提供了 build.nvidia.com 上的 GPU 加速接口,供开发者进行免费原型验证。
面向生产环境,NVIDIA 将 DiffusionGemma 接入 NVIDIA NIM,以容器化推理微服务的方式简化部署。通过标准化 API、性能调优能力以及本地、云端、混合环境的适配,企业可以更快把模型从实验阶段推向正式业务。对于有行业微调需求的团队,NVIDIA 还提供了基于 NeMo AutoModel 的微调指南与配方,帮助开发者直接围绕 Hugging Face 权重开展适配工作。
整体来看,DiffusionGemma 的意义不仅在于模型本身,更在于它为高吞吐、低延迟文本生成提供了新的工程路径。对希望构建实时智能体、交互式助手和企业级生成式 AI 服务的团队而言,这套围绕 NVIDIA 硬件与软件栈的部署方案,能够帮助其更快完成从原型验证到生产落地的过渡。
WeChat
Profile