AI Agent 正在长成一个新的应用系统栈
Claude Code 在 Linux 内核里发现了一个隐藏 23 年的可远程利用漏洞,连 Linus Torvalds 团队都没察觉,AI 在几小时内精准定位。
这不是什么概念演示,是 2026 年真实发生的生产级事件。它背后反映的趋势,比漏洞本身更值得深究:AI Agent 正在从”提示工程的延伸”变成”一个新的应用系统栈”。
不是”更聪明的 AI”,而是”更完整的系统”
2026 年 5 月,DataLearner 发布了一份 AI Agent 技术进展报告,核心判断只有一条:
最有效的 Agent 不是”万能单体”,而是”可组合、可观测、可约束”的系统。
这个结论来自对 Anthropic、OpenAI、Google、AWS 过去 18 个月工程实践的总结。几个大厂的平台文档里,状态、工具、会话、追踪、审批、沙箱全部被做成一等公民——不是某个公司的偏好,而是行业正在收敛的共识。
三层架构,主旋律就一个
当前主流的 Agent 架构可以用三层来概括:
用户目标 → 任务分解与策略层(做什么、先后顺序) → 能力执行层(调用哪个工具/检索什么/如何执行) → 运行与治理层(状态可恢复、动作可审计、风险可拦截)听起来简单,工程落地却把大多数团队拦在门外。
Planner 负责规划和决策,通常用推理模型(o-series 或同类推理模型),因为复杂任务需要”想清楚再动手”。Executor 负责真正执行 API、浏览器、终端或代码操作,用低延迟模型,追求速度和成本控制。
OpenAI 的官方文档里明确建议用 o-series 做 planner、低延迟 GPT 模型做 doer。Anthropic 则把检索、工具、记忆作为增强型 LLM 的基本构件,而不是外挂。
Planner-Executor:分工是经验,不是教条
2019-2023 年,大多数 AI 应用都是”单体循环”——一个模型同时做规划、工具选择、执行和反思。简单,开发快,原型效率高。
但 2025 年之后,复杂场景开始暴露问题:成本不可控、调试困难、职责混杂导致系统脆弱。
现在更主流的架构是 planner-executor 分离:
- 强推理模型负责计划(慢但准)
- 轻量模型负责执行(快且便宜)
- 两者通过结构化接口通信
Slack 推出的长时运行多 Agent 系统,核心解决的不是”AI 聪不聪明”的问题,而是”AI 如何在长时间对话中记住并理解上下文”。这本质上是记忆管理问题,不是模型问题。
MCP 和 A2A:工具互操作的新协议层
2026 年最值得关注的工程进展之一,是 MCP(Model Context Protocol)和 A2A(Agent-to-Agent)协议的快速成熟。
这两个协议把”工具互联”和”代理互联”拆成了两个独立的协议层:
- MCP 解决的是”Agent 如何调用外部工具”(API、函数、数据库)
- A2A 解决的是”多个 Agent 之间如何协作”(任务委派、状态同步)
之前这两个能力是耦合在一起的,做多 Agent 系统就等于把工具调用也重新发明一遍。协议分层之后,工具厂商专注做 MCP server,Agent 厂商专注做 Agent 框架,生态开始真正分离。
Google 开源的 Agent Skill 工具箱,底层就是基于 MCP 思想设计的。
评测正在从”看答案”转向”看轨迹”
传统 LLM 评测看的是最终答案对不对。Agent 评测看的是整个执行轨迹——你不能因为最终答案对就说系统没问题,如果中间过程有三次危险的权限滥用,那比答案错更致命。
2026 年主流的 Agent 评测体系包括:
- WebArena / VisualWebArena:网页操作任务
- OSWorld:操作系统操作
- SWE-bench Verified:真实代码库修复
- τ-bench / BFCL:工具调用评测
- GAIA:通用 AI 助手任务
关键数据:GAIA 上人类准确率 92%,带插件的 GPT-4 只有 15%。VisualWebArena 上最佳 VLM agent 16.4%,人类 88.7%。这说明现实环境里的 Agent 距离人类稳健性还很远,但在”可验证、可约束、反馈可获得”的领域已经开始产生真实价值。
OpenAI Codex 在云端隔离容器里执行代码,Intercom 客服 resolution rates 达到 90%,AlphaEvolve 在 Google 数据中心平均回收 0.7% 算力——这些都是真实价值,不是 demo。
Context Engineering:不是塞更多 token
Anthropic 在 2025 年底提出了一个新概念:Context Engineering,对有限上下文窗口进行持续策展与循环精炼。
说人话:长程 Agent 不是”把更多 token 塞进去”,而是要持续决定什么该保留、压缩、遗忘、重取和外化为工具/记忆。
这对工程团队提出了一个全新的要求:Agent 的记忆管理不再是”加个向量数据库”那么简单,而是需要设计一套完整的策展策略。
真实瓶颈:工作流重构的成本
最后说一个反直觉的事实:国产模型已经追上闭源旗舰水平,但企业 AI 编程的真正障碍不是模型能力,而是工作流重构的成本。
引用最近在技术圈流传的一个比喻:
你买了一台最先进的跑车,但还在用自行车的交通规则上路。AI 就是那台跑车,而大多数企业的工作流程还是”自行车规则”。
Mistral AI 在 2026 年 5 月 1 日推出 Workflows 产品,定位就是”企业级 AI 工作流编排平台”。本质上是帮企业把现有的业务流程重新组织一遍,让 AI Agent 能真正嵌入进去。
小结
2026 年的 AI Agent 不是什么神秘的”超级 AI”,而是一套正在成熟的工程系统:
- 架构从单体循环走向模块化分层
- Planner-executor 分工成为主流模式
- MCP/A2A 协议分层让生态开始分离
- 评测从答案转向轨迹,安全性被前置
- 真实瓶颈从模型能力转向工作流适配
下一个竞争焦点,不再是”谁的回答更好”,而是”谁更能在真实系统里安全地行动”。
参考来源:
← Back to blog