Claude Opus 4.8 发布：SWE-Bench Pro 69.2%，Dynamic Workflows 让百个 Agent 并行

2026 年 5 月 28 日，Anthropic 一次甩出三件东西：Claude Opus 4.8 模型本体、Claude Code 的 Dynamic Workflows、claude.ai 全计划的 Effort 调控 UI。价格没变：输入 5 美元、输出 25 美元每百万 token。和 4.7 完全一样。

但数字是另一回事。SWE-Bench Pro 从 64.3% 跳到 69.2%，超过 GPT-5.5 的 58.6% 和 Gemini 3.1 Pro 的 54.2%。在衡量真实知识工作价值的 GDPval-AA 基准上，Opus 4.8 比 Gemini 3.1 Pro 高出 576 分，是 Anthropic 公布过的所有基准里差距最大的一组。

一、4.8 真正的杀手锏不是分数

跑分霸榜是预期内的事，真正值得关注的是 Dynamic Workflows。

这个功能的核心是：Claude Code 在一个会话里可以动态派生数百个 subagent，每个跑独立的子任务，最后汇总。Anthropic 公布的典型工作流是这样的：

主 agent 接收一个大型重构任务，比如「把整个 monorepo 从 JavaScript 迁到 TypeScript」
主 agent 把仓库拆成 200 个文件级子任务
每个 subagent 在独立 worktree 里改文件、跑测试、修 lint
主 agent 持续 polling 状态，处理冲突，合并结果
全程人类可以随时介入、修改、暂停

这不是简单的并发调用，而是 Anthropic 第一次把 Agent Mesh 做成了产品功能。Cursor 的 Michael Truell 在评测里说：同样的智力水平，Opus 4.8 用的步骤更少，意味着每任务的 token 成本下降。Cognition 的 Scott Wu 评价更直接：4.8 修复了 4.7 的注释冗长和工具调用问题。

二、四模型横评：Opus 4.8 的真实位置

为了不把 4.8 神化，Vellum 和 Anthropic 的 system card 把四款前沿模型放在同一张表里。关键数据如下（Opus 4.8 取 max effort、adaptive thinking、5 次平均）：

基准	Opus 4.8	GPT-5.5	Gemini 3.1 Pro	Opus 4.7
SWE-Bench Pro	69.2%	58.6	54.2	64.3
SWE-Bench Verified	88.6%	-	80.6	87.6
Terminal-Bench 2.1	74.6	78.2 (Terminus-2) / 83.4 (Codex CLI)	70.3	66.1
HLE（带工具）	57.9%	52.2	51.4	54.7
GPQA Diamond	93.6	-	94.3	94.2
GDPval-AA (ELO)	1890	1769	1314	1753
OSWorld-Verified（计算机使用）	83.4%	78.7	76.2	82.8
USAMO 2026（数学奥赛）	96.7%	-	-	69.3
GraphWalks BFS 1M（长上下文）	68.1%	45.4	-	40.3

几个值得划重点的差异：

Terminal-Bench 2.1 上 GPT-5.5 领先，但要注意 OpenAI 的 83.4% 是用自家 Codex CLI 跑出来的，换到公开的 Terminus-2 harness 是 78.2%，Opus 4.8 74.6% 反而差距更小
GPQA Diamond 已经饱和，Opus 4.8（93.6）比 4.7（94.2）还低 0.6 分，属于统计噪声
多语言任务，Opus 4.8 仍然落后于 Gemini 3.1 Pro 和 GPT-5.5，Anthropic 自己在 system card 里承认了
长上下文推理是 4.8 最大的亮点，GraphWalks BFS 1M 从 40.3 跳到 68.1，对 Agent 处理百万级 token 仓库是质变

三、诚实代码：4.8 真正改观的指标

数字之外，4.8 真正让企业用户想换模型的原因是诚实度。Anthropic 在 system card 里第一次公开了一套代码诚实度评估体系，4.8 的表现是降维打击：

未报告代码缺陷率：4.8 比 4.7 低 4 倍。这意味着 4.8 写完代码后，不会把明明存在的 bug 静默吞掉
无批判地报告有缺陷结果：4.8 拿到 0%，是 Claude 系列第一个跑出零分的模型，4.7 是 25%
偷懒式调查：4.8 0%，4.7 25%
过度自信：比 4.7 改善 10 倍以上
事实幻觉：在 6 个模型对比里，4.8 错误率最低，主要靠不知道就说不而不是编

对 Agent 场景，这组数据比任何 benchmark 都重要。Agent 跑长流程最怕的不是不够聪明，而是在中间环节悄悄把问题藏起来。4.8 的诚实度改善，意味着可以放心让它跑几百步的工作流而不用每步都人工 review。

四、Code with Claude SF 上还公布了什么

5 月 6 日 Code with Claude SF 巡演第一站，Anthropic 同步公布了三件运营层面的大事：

Claude Code 速率限制翻倍：Pro、Max、Team、Enterprise 全部 5 小时窗口限制翻倍，Pro 和 Max 高峰节流取消
Opus 4.8 同步登陆 Claude Code，按 Effort 控制 token 消耗
Anthropic 与 SpaceX 签下 300+ 兆瓦算力合作。这个数字比任何新功能都让竞争对手紧张——300 MW 是 H100 集群的大约 30 万张卡

Mythos 级别模型已经在 Project Glasswing 框架下向网络安全客户定向开放，传闻 6 月内对所有客户解禁。Anthropic 的 roadmap 透露 Mythos 模型智力水平显著高于 Opus 4.8，但价格也高得多。

五、对开发者的实际选择建议

4.8 发布之后，模型选型的边界更清晰了：

跑长流程 Agent（>100 步、跨多个文件、需要诚实度）：Opus 4.8 Dynamic Workflows 是当前唯一稳的选择
Terminal 工具调用密集型任务：GPT-5.5 + Codex CLI 仍是首选
多语言 / 多模态场景：Gemini 3.1 Pro 仍然领先 Opus
预算敏感的小型 Agent：Opus 4.8 配合 Effort=HIGH 跑出来的效果，已经不输 4.7 max effort，但 token 消耗更低

4.8 不是更强的模型，而是更能被信任的模型。这恰恰是 Agent 时代最稀缺的能力。

← Back to blog

Table of contents