MiniMax M3 深度解析:稀疏注意力 + 1M 上下文 + 49 元/月起,开源全栈模型的突围之路
6 月 1 日,MiniMax 发布新一代旗舰模型 M3。两周过去了,热度似乎不如 Claude Fable 5 或 Qwen3.7 系列——但仔细看技术细节,M3 可能是 2026 年 AI 圈最有战略意义的发布之一。
架构层面:终于有人对注意力机制动手了
大模型架构创新的重要方向,这几年基本上被 MoE(混合专家)和 MLA(多头潜在注意力)两个名字垄断。M3 选择了一条不同的路:MiniMax Sparse Attention(MSA)。
MSA 的核心思路很直接:不是所有 token 都需要关注所有其他 token。在长序列中,大部分 token 对的注意力分数接近于零,但传统全注意力机制仍然要为它们计算。
M3 的 MSA 做了什么?它用一个轻量级的「路由」模块,先判断每个 token 该关注哪部分上下文,然后再进行精确的注意力计算。效果上,在 100 万 token 上下文规模下,M3 每 token 计算量仅为上代(M2.5)的 1/20。
这意味着什么两个实际好处:
- 长文档处理不再是 GPU 燃烧弹。不需要先切 chunk、做 RAG、冒丢失上下文的风险——一次推理读完一整本书。
- 长程 Agent 任务有了工程可行性。Agent 在多次工具调用间保持上下文,不需要每次都重新加载历史。
我记得 MiniMax 创始人闫俊杰在之前的采访里说过一句话:「稀疏注意力不是性能优化,是架构选择。」现在回头看,M3 发布前 MiniMax 就在为这条路蓄力了。
能力层面:全栈不偏科
M3 发布时打出的定位是「国内首个同时具备前沿 Coding 能力、1M 超长上下文、原生多模态三大核心能力的开源模型」。
在 Coding 赛道:
| 基准 | M3 得分 | 对比 |
|---|---|---|
| SWE-Bench Pro | >GPT-5.5, >Gemini 3.1 Pro | 接近 Opus 4.7 |
| SVG-Bench | >Opus 4.7 | 综合 SVG 生成居首 |
| Claw-Eval(Agent 端到端) | 最高分 | 开源模型首次登顶 |
在 Agent 能力上,MiniMax 团队做了个很硬的 demo:让 M3 独立复现一篇 ICLR 2025 获奖论文。模型需要看懂图文、曲线、数据和公式,用 1M 上下文装入论文 + 代码 + 实验日志,自主运行接近 12 小时,最终跑通核心实验。
这比写一个「hello world」App 难了至少两个数量级。它是研究级的端到端自主科研能力。
开源策略:卷价格还是卷生态?
M3 是开源模型——MiniMax 承诺在发布后 10 天内公开技术报告和模型权重。和闭源模型(GPT-5、Claude Opus)以及定位不同的开源模型(Qwen3.7-Plus 不开源)相比,M3 的核心差异化是:
开源 + 全能 + 极限性价比。
Token Plan 订阅方案:
- Plus:49 元/月,6 亿 token
- Max:119 元/月,18 亿 token
- Ultra:469 元/月,55 亿 token
折算下来,49 元你就能拿到 6 亿 token——对个人开发者和独立项目来说,这是目前成本最低的 SOTA 级别模型入口。对比 Claude Pro 的 $20(约 145 元)或 GPT Plus 的 $20,M3 的定价直接打到了四分之一。
但开源不只是价格战。M3 走开源路线的真实目标,是抢那些「对数据隐私敏感,同时对 Agent 性能要求极高」的企业级用户。金融、医疗、法律——这些行业不可能把核心数据送到闭源 API 里,但又要 Agent 能力达到前沿水平。M3 给了它们一个自部署的选项。
对比 Qwen3.7-Plus:两条不同的 Agent 路线
M3 发布一天后,Qwen3.7-Plus 发布。两家在同一天窗口内密集出牌,但走的是完全不同的技术路线:
| 维度 | MiniMax M3 | Qwen3.7-Plus |
|---|---|---|
| 开源 | ✅ 开源权重 | ❌ 仅 API |
| 上下文 | 1M tokens | 标准 128K |
| 架构创新 | MSA 稀疏注意力 | Dense/MoE |
| 核心优势 | 长程自主任务 | 屏幕理解 + GUI 操作 |
| 主打场景 | 代码/科研 Agent | 多模态 Agent |
| 价格 | 49 元/月起 | $0.4/$1.6 每百万 token |
M3 更接近「让模型自己跑」,Qwen3.7-Plus 更接近「让模型看懂你再跑」。两条路线没有优劣,但说明了一个趋势:2026 年的模型竞争已经从「谁更聪明」转向了「谁能做成事」。
潜在风险和不确定因素
M3 发布两周,有几点值得持续关注:
- MSA 的通用性验证还不够。长序列场景下计算量确实降低了,但短序列场景是否有性能损失?目前评测数据还不足以回答这个问题。
- MiniMax Code 还在完善中。Agent Team 能力演示很亮眼,但从 demo 到稳定可用的产品级工具,还差一个工程化的距离。
- 开源后的社区反馈。技术报告和权重公开后,社区的真实使用体验和 benchmark 验证会更客观。
我的判断
M3 是 2026 年上半年最有战略意义的大模型发布之一。不是因为跑分最高(Claude Fable 5 显然更强),而是因为它用开源 + 稀疏注意力 + 极限定价,给开发者提供了一个真正的闭源替代方案。
对于个人开发者和中小团队:如果你在做 Agent 项目、对上下文长度有刚性需求、或者自部署是硬约束,M3 值得现在就用起来。49 元/月的门槛,试错成本几乎为零。
对于企业:M3 的开源自部署方案,可能是你在国内合规 + 前沿能力之间能找到的最好平衡点之一。
最后,一个观察:2026 年 6 月的第一周,MiniMax M3(开源+全能)、Qwen3.7-Plus(多模态 Agent)、Claude Fable 5(Mythos 级)三家密集发布。 这不再是一场「模型竞赛」——而是 Agent 基础设施的大规模铺建。谁能在能力、成本和可用性之间找到最优解,谁就能拿到 Agent 时代的第一张船票。
← Back to blog