咨询热线 4001616691
联系我们 中国大陆 CNY

新闻中心

NVIDIA 发布先进融合内核:将 MoE 模型训练吞吐量提升 2 倍 NEWS DETAIL

当前位置:首页 > 新闻中心
资讯分类 · 新闻中心 发布时间 · 2026-06-23

混合专家模型已成为现代大规模 AI 系统的基础组件,但随着模型规模持续增长,其训练块的优化变得至关重要。NVIDIA 推出基于 CuTe DSL 构建的先进融合 MLP 内核,针对密集模型和 MoE 模型解决了三个关键瓶颈:激活瓶颈、CPU 开销和量化成本。

新内核通过将 GEMM 与激活函数、量化操作融合为单一自定义内核,实现了 1.3 倍至 2 倍的内核级加速,同时实现了无同步 MoE 执行,支持全迭代 CUDA Graphs。在 NVIDIA 全栈 DeepSeek-V3 预训练设置中,这一优化贡献了 8% 的端到端性能提升;在 GPT-OSS 预训练中,更是实现了 93% 的端到端性能提升。

该融合内核现已通过 NVIDIA cuDNN Frontend 提供,可通过 NVIDIA Transformer Engine 和 NVIDIA Megatron-Core 无缝接入使用。