MiniMax M3 正式发布:稀疏注意力架构改写开源大模型游戏规则

O(n²) 的终结者

过去几年,大模型在卷参数、卷上下文、卷多模态。但一个根本问题始终没解决:注意力机制的计算复杂度是 O(n²)。上下文翻一倍,算力要四倍。1M Token 的推理成本高到离谱,长文本场景下性能衰减几乎是必然。

MiniMax M3 用了一个很直接的思路:别所有 Token 一视同仁,先筛一遍。

三层架构拆解

M3 的核心是自研稀疏注意力机制,分三层干活:

Index Branch(索引分支) — 快速扫描整个上下文,给每个 Token 打重要性分数,筛选出关键 Token。这一步的计算量极低,相当于先做一次轻量索引。

Sparse Branch(稀疏分支) — 只对筛选出的关键 Token 做精确注意力计算。因为输入量大幅压缩,计算量从 O(n²) 降到 O(n·k),k 是筛选后的有效 Token 数。

Dense Branch(密集分支) — 对局部窗口做正常注意力,确保细节不丢失。

三个分支并行工作,最后由门控机制融合输出。对比前代 M2(已支持 100 万 Token),M3 的预填充速度提升 9.7 倍,解码生成速度提升 15.6 倍。

不是阉割,是架构重构

稀疏注意力不是新概念。但之前大多数实现是后处理式的阉割——先用标准注意力算完,再裁掉不重要部分。M3 是前置筛选 + 定向计算,从架构层面改变了计算路径。

这意味着几个现实好处:

  • 1M 上下文的推理成本不再是天文数字
  • 序列越长,相对收益越大
  • 长程依赖不会因为中间层衰减丢失

原生多模态是加分项

M3 的多模态不是外挂 CLIP 或 Q-Former,是架构级的原生多模态。文本、图像、音频共享同一个表示空间,跨模态推理不需要「翻译」环节。

官方演示里,输入一张电路板照片 +「找出短路点」的指令,M3 能直接在图像上做空间推理并输出修复建议。这在之前的开源模型里很少见到。

开源权重 + 闭源级性能

M3 延续了 MiniMax K2 系列的开源策略,权重开放,社区可以自部署。评测数据上,SWE-Bench Pro 持平 GPT-5.5 和 Claude Opus 4.6。

对于有私有化部署需求的团队来说,这是目前性价比最高的方案之一——能在自己机房跑出接近 GPT-5.5 的编程能力,且成本可控。

和 M2.7 的区别

注意:M3 是刚发布的旗舰,当前最新可用的开源权重是 M3。之前社区有混淆说「M3 还没发」,现在正式上线了。

MiniMax-M2.7 是过渡版本(已开源),M3 是新一代架构重构版。两者在稀疏粒度和多模态深度上有本质区别,M2.7 用户建议直接迁移。

写在最后

M3 最值得关注的点不在参数规模,而在计算效率。当上下文从 128K 卷到 1M,O(n²) 的 Transformer 终究会遇到墙。M3 给出的答案是:不硬算,先筛选。

这可能是 2026 年上半年开源大模型最重要的架构创新之一。值得上手试试。


← Back to blog