混合专家模型已成为现代大规模 AI 系统的基础组件,但随着模型规模持续增长,其训练块的优化变得至关重要。NVIDIA 推出基于 CuTe DSL 构建的先进融合 MLP 内核,针对密集模型和 MoE 模型解决了三个关键瓶颈:激活瓶颈、CPU 开销和量化成本。
新内核通过将 GEMM 与激活函数、量化操作融合为单一自定义内核,实现了 1.3 倍至 2 倍的内核级加速,同时实现了无同步 MoE 执行,支持全迭代 CUDA Graphs。在 NVIDIA 全栈 DeepSeek-V3 预训练设置中,这一优化贡献了 8% 的端到端性能提升;在 GPT-OSS 预训练中,更是实现了 93% 的端到端性能提升。
该融合内核现已通过 NVIDIA cuDNN Frontend 提供,可通过 NVIDIA Transformer Engine 和 NVIDIA Megatron-Core 无缝接入使用。
WeChat
Profile