Claude Fable 5 实测:Mythos 级模型首度公众开放,但安全阀门焦虑才刚刚开始

6月10日,Anthropic 向世界打开了 Mythos 的大门。

Claude Fable 5(公版)和 Mythos 5(受限版)同时发布。这不是 Opus 4.8 的小迭代——这是 Mythos 级模型第一次走出实验室。对,就是那个 Anthropic 内部用于最前沿研究的模型系列。

定价与定位

先看定价:

模型输入(每百万tokens)输出(每百万tokens)
Claude Opus 4.8$25$100
Claude Fable 5$10$50
Mythos 5(受限)特殊许可特殊许可

Fable 5 定价是 Opus 4.8 的一半,但能力远超 Opus 4.8。这在定价策略上很不寻常——更便宜,更强。Anthropic 的解释是:Mythos 架构的推理效率更高,每 token 的计算成本实际上更低。

Mythos 5 则走完全不同的路线:不公开发售,只通过 Project Glasswing 提供给约 200 个组织。这是 Anthropic 的「安全优先」策略——最强模型永远不直接卖给大众。

性能实测:SWE-bench Pro 80.3%

SWE-bench Pro 是目前最高难度的编程基准测试,模拟真实 GitHub Issue → PR 的完整工作流。Fable 5 拿到了 80.3%。

参考数据:GPT-5.5 约 58-60%,Claude Opus 4.8 约 65-68%。差距不是一点点。

Stripe 的案例更有说服力:用 Fable 5 处理一次大规模代码迁移,一天内完成了原本预计两个月的工作量。不是实验,是生产环境。Fable 5 全自动完成了架构迁移、测试适配、代码审查和部署验证的完整链路。

安全阀门:技术方案与争议

Fable 5 最大的技术创新不是性能——是安全阀门机制。

工作原理:一个实时安全分类器在模型推理前检查输入和中间状态。检测到网络安全、生物工程、化学武器、模型蒸馏等风险话题时,自动降级到 Claude Opus 4.8 响应。用户不会看到任何提示,只是回答来自「一个不那么智能但更安全的模型」。

Anthropic 称分类器在不到 5% 的会话中被激活。但用户社区的反馈不太一样——化学品安全数据表、普通生物学实验步骤、甚至部分药物基础知识也被拦截,自动降级到 Opus 4.8。

这在 AI 安全圈引发了「过度对齐(over-alignment)」的讨论:

  • 支持者:宁可误杀不可漏杀。这是最强大的模型,安全措施严格是负责任的表现。
  • 反对者:如果用户无法分辨回答来自哪个模型,他们如何评估回答的可靠度?一个本来能回答的问题被降级到较弱模型,用户可能拿到不够好的答案却不自知。

对编程工作流的影响

作为一个天天用 AI 编程的人,Fable 5 带来的变化很具体:

一次性理解更大范围的上下文。 Mythos 架构的注意力机制让 Fable 5 在 100K+ token 的上下文中仍保持高精度。之前的模型在长对话后期会出现「注意力漂移」——Fable 5 基本消除了这个问题。

代码迁移和重构是天菜。 不写新功能,只改已有代码 —— 这是 Fable 5 最擅长的事。Stripe 的案例不是个例,自测下来老旧代码库的升级维护效率提升了至少 3 倍。

小项目的过度杀伤。 对于简单的 CRUD 代码生成,Fable 5 和 Opus 4.8 几乎没有差异。在这类场景上用 Fable 5 属于拿牛刀杀鸡。

隐忧

Fable 5 有两个让我不太舒服的地方。

安全阀门不透明。 用户不知道当前回答来自 Fable 5 还是降级后的 Opus 4.8。如果模型在回答一个「安全的」问题时悄然降级了,用户拿到的可能是一个弱模型的答案——但他以为自己得到了 Mythos 级的能力。

门槛更高了。 Mythos 5 只对 200 个组织开放。Anthropic 正在建立 AI 能力的「等级制度」——最强能力永远掌握在少数人手里。这不是阴谋论,是公开的设计决策。

小结

Fable 5 是 2026 年截至目前最重要的模型发布之一。不是因为评测分数最高——而是因为它第一次让外界看到了 Mythos 的冰山一角。

80.3% 的 SWE-bench Pro 成绩、Stripe 的单日代码迁移、安全阀门机制——这三个信号叠加在一起,说明 Anthropic 对安全的理解从「在模型层面加固」进化为「在部署层面做架构设计」。

但是安全阀门不透明的体验设计和 Mythos 5 的排他性准入,也在提醒我们:强大的 AI 能力开放到什么程度,可能比能力本身更难决定。


← Back to blog