MiniMax M3 现已登陆包括 NVIDIA Blackwell 在内的加速基础设施。这款 428B 参数的混合专家多模态模型支持高达 1M token 的上下文长度和原生多模态输入,开发者可通过统一的模型构建长视频理解、连续编码会话(8 小时以上)和高质量设计工作流等应用。
MiniMax M3 的核心架构创新是 MiniMax 稀疏注意力机制,该机制用一个预过滤阶段替代了标准的二次注意力,每个 KV 缓存块只需一次连续内存访问即可读取 - 比现有稀疏注意力实现快 4 倍以上。在 1M token 上下文下,每 token 计算量仅为 M2 的 1/20,预填充速度提升 9 倍,解码速度提升 15 倍。
该模型支持通过 NVIDIA TensorRT LLM、SGLang 和 vLLM 等开源推理引擎进行部署。在 NVIDIA Dynamo 平台上的部署可进一步优化长输入序列的性能而不牺牲吞吐量。
MiniMax M3 的发布标志着多模态大模型在长上下文推理和智能体工作流方面的重要进展,为企业和开发者提供了一个统一的高性能多模态 AI 基础模型。
WeChat
Profile