NVIDIA 发布先进融合内核：将 MoE 模型训练吞吐量提升 2 倍 NEWS DETAIL

资讯分类 · 新闻中心发布时间 · 2026-06-23

混合专家模型已成为现代大规模 AI 系统的基础组件，但随着模型规模持续增长，其训练块的优化变得至关重要。NVIDIA 推出基于 CuTe DSL 构建的先进融合 MLP 内核，针对密集模型和 MoE 模型解决了三个关键瓶颈：激活瓶颈、CPU 开销和量化成本。

新内核通过将 GEMM 与激活函数、量化操作融合为单一自定义内核，实现了 1.3 倍至 2 倍的内核级加速，同时实现了无同步 MoE 执行，支持全迭代 CUDA Graphs。在 NVIDIA 全栈 DeepSeek-V3 预训练设置中，这一优化贡献了 8% 的端到端性能提升；在 GPT-OSS 预训练中，更是实现了 93% 的端到端性能提升。

该融合内核现已通过 NVIDIA cuDNN Frontend 提供，可通过 NVIDIA Transformer Engine 和 NVIDIA Megatron-Core 无缝接入使用。

上一篇：MiniMax M3 登陆 NVIDIA 平台：428B 参数多模态 MoE 支持百万级上下文

下一篇：从预训练到行动：NVIDIA 详解 World-Action Models 崛起之路

NVIDIA

Extreme

Aruba

Ruckus

模块

HUAWEI

H3C

WIFI认证

深信服

网康

亿赛通

Panabit

思科

一体机

新闻中心

NVIDIA 发布先进融合内核：将 MoE 模型训练吞吐量提升 2 倍 NEWS DETAIL

产品中心

解决方案

服务支持

联系与咨询