MiniMax M3 深度解析：稀疏注意力 + 1M 上下文 + 49 元/月起，开源全栈模型的突围之路

6 月 1 日，MiniMax 发布新一代旗舰模型 M3。两周过去了，热度似乎不如 Claude Fable 5 或 Qwen3.7 系列——但仔细看技术细节，M3 可能是 2026 年 AI 圈最有战略意义的发布之一。

架构层面：终于有人对注意力机制动手了

大模型架构创新的重要方向，这几年基本上被 MoE（混合专家）和 MLA（多头潜在注意力）两个名字垄断。M3 选择了一条不同的路：MiniMax Sparse Attention（MSA）。

MSA 的核心思路很直接：不是所有 token 都需要关注所有其他 token。在长序列中，大部分 token 对的注意力分数接近于零，但传统全注意力机制仍然要为它们计算。

M3 的 MSA 做了什么？它用一个轻量级的「路由」模块，先判断每个 token 该关注哪部分上下文，然后再进行精确的注意力计算。效果上，在 100 万 token 上下文规模下，M3 每 token 计算量仅为上代（M2.5）的 1/20。

这意味着什么两个实际好处：

长文档处理不再是 GPU 燃烧弹。不需要先切 chunk、做 RAG、冒丢失上下文的风险——一次推理读完一整本书。
长程 Agent 任务有了工程可行性。Agent 在多次工具调用间保持上下文，不需要每次都重新加载历史。

我记得 MiniMax 创始人闫俊杰在之前的采访里说过一句话：「稀疏注意力不是性能优化，是架构选择。」现在回头看，M3 发布前 MiniMax 就在为这条路蓄力了。

能力层面：全栈不偏科

M3 发布时打出的定位是「国内首个同时具备前沿 Coding 能力、1M 超长上下文、原生多模态三大核心能力的开源模型」。

在 Coding 赛道：

基准	M3 得分	对比
SWE-Bench Pro	>GPT-5.5, >Gemini 3.1 Pro	接近 Opus 4.7
SVG-Bench	>Opus 4.7	综合 SVG 生成居首
Claw-Eval（Agent 端到端）	最高分	开源模型首次登顶

在 Agent 能力上，MiniMax 团队做了个很硬的 demo：让 M3 独立复现一篇 ICLR 2025 获奖论文。模型需要看懂图文、曲线、数据和公式，用 1M 上下文装入论文 + 代码 + 实验日志，自主运行接近 12 小时，最终跑通核心实验。

这比写一个「hello world」App 难了至少两个数量级。它是研究级的端到端自主科研能力。

开源策略：卷价格还是卷生态？

M3 是开源模型——MiniMax 承诺在发布后 10 天内公开技术报告和模型权重。和闭源模型（GPT-5、Claude Opus）以及定位不同的开源模型（Qwen3.7-Plus 不开源）相比，M3 的核心差异化是：

开源 + 全能 + 极限性价比。

Token Plan 订阅方案：

Plus：49 元/月，6 亿 token
Max：119 元/月，18 亿 token
Ultra：469 元/月，55 亿 token

折算下来，49 元你就能拿到 6 亿 token——对个人开发者和独立项目来说，这是目前成本最低的 SOTA 级别模型入口。对比 Claude Pro 的 $20（约 145 元）或 GPT Plus 的 $20，M3 的定价直接打到了四分之一。

但开源不只是价格战。M3 走开源路线的真实目标，是抢那些「对数据隐私敏感，同时对 Agent 性能要求极高」的企业级用户。金融、医疗、法律——这些行业不可能把核心数据送到闭源 API 里，但又要 Agent 能力达到前沿水平。M3 给了它们一个自部署的选项。

对比 Qwen3.7-Plus：两条不同的 Agent 路线

M3 发布一天后，Qwen3.7-Plus 发布。两家在同一天窗口内密集出牌，但走的是完全不同的技术路线：

维度	MiniMax M3	Qwen3.7-Plus
开源	✅ 开源权重	❌ 仅 API
上下文	1M tokens	标准 128K
架构创新	MSA 稀疏注意力	Dense/MoE
核心优势	长程自主任务	屏幕理解 + GUI 操作
主打场景	代码/科研 Agent	多模态 Agent
价格	49 元/月起	$0.4/$1.6 每百万 token

M3 更接近「让模型自己跑」，Qwen3.7-Plus 更接近「让模型看懂你再跑」。两条路线没有优劣，但说明了一个趋势：2026 年的模型竞争已经从「谁更聪明」转向了「谁能做成事」。

潜在风险和不确定因素

M3 发布两周，有几点值得持续关注：

MSA 的通用性验证还不够。长序列场景下计算量确实降低了，但短序列场景是否有性能损失？目前评测数据还不足以回答这个问题。
MiniMax Code 还在完善中。Agent Team 能力演示很亮眼，但从 demo 到稳定可用的产品级工具，还差一个工程化的距离。
开源后的社区反馈。技术报告和权重公开后，社区的真实使用体验和 benchmark 验证会更客观。

我的判断

M3 是 2026 年上半年最有战略意义的大模型发布之一。不是因为跑分最高（Claude Fable 5 显然更强），而是因为它用开源 + 稀疏注意力 + 极限定价，给开发者提供了一个真正的闭源替代方案。

对于个人开发者和中小团队：如果你在做 Agent 项目、对上下文长度有刚性需求、或者自部署是硬约束，M3 值得现在就用起来。49 元/月的门槛，试错成本几乎为零。

对于企业：M3 的开源自部署方案，可能是你在国内合规 + 前沿能力之间能找到的最好平衡点之一。

最后，一个观察：2026 年 6 月的第一周，MiniMax M3（开源+全能）、Qwen3.7-Plus（多模态 Agent）、Claude Fable 5（Mythos 级）三家密集发布。 这不再是一场「模型竞赛」——而是 Agent 基础设施的大规模铺建。谁能在能力、成本和可用性之间找到最优解，谁就能拿到 Agent 时代的第一张船票。

← Back to blog

Table of contents