AI Agent 正在长成一个新的应用系统栈

Claude Code 在 Linux 内核里发现了一个隐藏 23 年的可远程利用漏洞，连 Linus Torvalds 团队都没察觉，AI 在几小时内精准定位。

这不是什么概念演示，是 2026 年真实发生的生产级事件。它背后反映的趋势，比漏洞本身更值得深究：AI Agent 正在从”提示工程的延伸”变成”一个新的应用系统栈”。

不是”更聪明的 AI”，而是”更完整的系统”

2026 年 5 月，DataLearner 发布了一份 AI Agent 技术进展报告，核心判断只有一条：

最有效的 Agent 不是”万能单体”，而是”可组合、可观测、可约束”的系统。

这个结论来自对 Anthropic、OpenAI、Google、AWS 过去 18 个月工程实践的总结。几个大厂的平台文档里，状态、工具、会话、追踪、审批、沙箱全部被做成一等公民——不是某个公司的偏好，而是行业正在收敛的共识。

三层架构，主旋律就一个

当前主流的 Agent 架构可以用三层来概括：

用户目标 → 任务分解与策略层（做什么、先后顺序）
         → 能力执行层（调用哪个工具/检索什么/如何执行）
         → 运行与治理层（状态可恢复、动作可审计、风险可拦截）

听起来简单，工程落地却把大多数团队拦在门外。

Planner 负责规划和决策，通常用推理模型（o-series 或同类推理模型），因为复杂任务需要”想清楚再动手”。Executor 负责真正执行 API、浏览器、终端或代码操作，用低延迟模型，追求速度和成本控制。

OpenAI 的官方文档里明确建议用 o-series 做 planner、低延迟 GPT 模型做 doer。Anthropic 则把检索、工具、记忆作为增强型 LLM 的基本构件，而不是外挂。

Planner-Executor：分工是经验，不是教条

2019-2023 年，大多数 AI 应用都是”单体循环”——一个模型同时做规划、工具选择、执行和反思。简单，开发快，原型效率高。

但 2025 年之后，复杂场景开始暴露问题：成本不可控、调试困难、职责混杂导致系统脆弱。

现在更主流的架构是 planner-executor 分离：

强推理模型负责计划（慢但准）
轻量模型负责执行（快且便宜）
两者通过结构化接口通信

Slack 推出的长时运行多 Agent 系统，核心解决的不是”AI 聪不聪明”的问题，而是”AI 如何在长时间对话中记住并理解上下文”。这本质上是记忆管理问题，不是模型问题。

MCP 和 A2A：工具互操作的新协议层

2026 年最值得关注的工程进展之一，是 MCP（Model Context Protocol）和 A2A（Agent-to-Agent）协议的快速成熟。

这两个协议把”工具互联”和”代理互联”拆成了两个独立的协议层：

MCP 解决的是”Agent 如何调用外部工具”（API、函数、数据库）
A2A 解决的是”多个 Agent 之间如何协作”（任务委派、状态同步）

之前这两个能力是耦合在一起的，做多 Agent 系统就等于把工具调用也重新发明一遍。协议分层之后，工具厂商专注做 MCP server，Agent 厂商专注做 Agent 框架，生态开始真正分离。

Google 开源的 Agent Skill 工具箱，底层就是基于 MCP 思想设计的。

评测正在从”看答案”转向”看轨迹”

传统 LLM 评测看的是最终答案对不对。Agent 评测看的是整个执行轨迹——你不能因为最终答案对就说系统没问题，如果中间过程有三次危险的权限滥用，那比答案错更致命。

2026 年主流的 Agent 评测体系包括：

WebArena / VisualWebArena：网页操作任务
OSWorld：操作系统操作
SWE-bench Verified：真实代码库修复
τ-bench / BFCL：工具调用评测
GAIA：通用 AI 助手任务

关键数据：GAIA 上人类准确率 92%，带插件的 GPT-4 只有 15%。VisualWebArena 上最佳 VLM agent 16.4%，人类 88.7%。这说明现实环境里的 Agent 距离人类稳健性还很远，但在”可验证、可约束、反馈可获得”的领域已经开始产生真实价值。

OpenAI Codex 在云端隔离容器里执行代码，Intercom 客服 resolution rates 达到 90%，AlphaEvolve 在 Google 数据中心平均回收 0.7% 算力——这些都是真实价值，不是 demo。

Context Engineering：不是塞更多 token

Anthropic 在 2025 年底提出了一个新概念：Context Engineering，对有限上下文窗口进行持续策展与循环精炼。

说人话：长程 Agent 不是”把更多 token 塞进去”，而是要持续决定什么该保留、压缩、遗忘、重取和外化为工具/记忆。

这对工程团队提出了一个全新的要求：Agent 的记忆管理不再是”加个向量数据库”那么简单，而是需要设计一套完整的策展策略。

真实瓶颈：工作流重构的成本

最后说一个反直觉的事实：国产模型已经追上闭源旗舰水平，但企业 AI 编程的真正障碍不是模型能力，而是工作流重构的成本。

引用最近在技术圈流传的一个比喻：

你买了一台最先进的跑车，但还在用自行车的交通规则上路。AI 就是那台跑车，而大多数企业的工作流程还是”自行车规则”。

Mistral AI 在 2026 年 5 月 1 日推出 Workflows 产品，定位就是”企业级 AI 工作流编排平台”。本质上是帮企业把现有的业务流程重新组织一遍，让 AI Agent 能真正嵌入进去。

小结

2026 年的 AI Agent 不是什么神秘的”超级 AI”，而是一套正在成熟的工程系统：

架构从单体循环走向模块化分层
Planner-executor 分工成为主流模式
MCP/A2A 协议分层让生态开始分离
评测从答案转向轨迹，安全性被前置
真实瓶颈从模型能力转向工作流适配

下一个竞争焦点，不再是”谁的回答更好”，而是”谁更能在真实系统里安全地行动”。

参考来源：

← Back to blog

Table of contents