MiniMax M3 正式发布：稀疏注意力架构改写开源大模型游戏规则

O(n²) 的终结者

过去几年，大模型在卷参数、卷上下文、卷多模态。但一个根本问题始终没解决：注意力机制的计算复杂度是 O(n²)。上下文翻一倍，算力要四倍。1M Token 的推理成本高到离谱，长文本场景下性能衰减几乎是必然。

MiniMax M3 用了一个很直接的思路：别所有 Token 一视同仁，先筛一遍。

M3 的核心是自研稀疏注意力机制，分三层干活：

Index Branch（索引分支） — 快速扫描整个上下文，给每个 Token 打重要性分数，筛选出关键 Token。这一步的计算量极低，相当于先做一次轻量索引。

Sparse Branch（稀疏分支） — 只对筛选出的关键 Token 做精确注意力计算。因为输入量大幅压缩，计算量从 O(n²) 降到 O(n·k)，k 是筛选后的有效 Token 数。

Dense Branch（密集分支） — 对局部窗口做正常注意力，确保细节不丢失。

三个分支并行工作，最后由门控机制融合输出。对比前代 M2（已支持 100 万 Token），M3 的预填充速度提升 9.7 倍，解码生成速度提升 15.6 倍。

稀疏注意力不是新概念。但之前大多数实现是后处理式的阉割——先用标准注意力算完，再裁掉不重要部分。M3 是前置筛选 + 定向计算，从架构层面改变了计算路径。

这意味着几个现实好处：

M3 的多模态不是外挂 CLIP 或 Q-Former，是架构级的原生多模态。文本、图像、音频共享同一个表示空间，跨模态推理不需要「翻译」环节。

官方演示里，输入一张电路板照片 +「找出短路点」的指令，M3 能直接在图像上做空间推理并输出修复建议。这在之前的开源模型里很少见到。

M3 延续了 MiniMax K2 系列的开源策略，权重开放，社区可以自部署。评测数据上，SWE-Bench Pro 持平 GPT-5.5 和 Claude Opus 4.6。

对于有私有化部署需求的团队来说，这是目前性价比最高的方案之一——能在自己机房跑出接近 GPT-5.5 的编程能力，且成本可控。

注意：M3 是刚发布的旗舰，当前最新可用的开源权重是 M3。之前社区有混淆说「M3 还没发」，现在正式上线了。

MiniMax-M2.7 是过渡版本（已开源），M3 是新一代架构重构版。两者在稀疏粒度和多模态深度上有本质区别，M2.7 用户建议直接迁移。

M3 最值得关注的点不在参数规模，而在计算效率。当上下文从 128K 卷到 1M，O(n²) 的 Transformer 终究会遇到墙。M3 给出的答案是：不硬算，先筛选。

这可能是 2026 年上半年开源大模型最重要的架构创新之一。值得上手试试。