Google I/O 2026 复盘:3,200 兆 token 与 Gemini 3.5 Flash 的代理新纪元

Google 把 AI 算力的真实规模摆到了台面上。

2026 年 5 月 20 日的 I/O 大会,Sundar Pichai 公布了一组数据:Google 全平台每月处理的 token 数从去年 I/O 的 480 兆,涨到了 3,200 兆——年增 7 倍。这不是任何单一产品的功劳,是基础架构、模型、产品三层同时发力的结果。

一、Token 增长是 AI 时代的 GDP 指标

Token 不是炫技数据,它是 AI 真正进入生产环境的硬指标。

|| 时间 | 每月处理 token | ||------|---------------| || 2024 年 5 月 | 9.7 兆 | || 2025 年 I/O | 480 兆 | || 2026 年 5 月 | 3,200 兆 |

两年涨了 330 倍。这意味着 Google 内部的每一个搜索、每一条 Gmail 建议、每一段 Docs 摘要背后,都有模型在跑。同比也有一组对照数据:

  • 模型 API 每分钟处理 190 亿个 token
  • 超过 375 家 Google Cloud 企业客户 各自处理超过 1 兆 token
  • 每月 850 万名开发人员 用 Google 模型构建应用

对照之下,去年同一时间这个数字是 480 兆/月。3,200 兆不是一个产品指标,是整个生态系统的吞吐水位线

二、TPU 8i/8t:把双晶片策略搬到数据中心

算力爆发的根在硬件。第八代 TPU 首次采用双晶片策略,分成训练版和推论版两个 SKU。

TPU 8t(训练用)

  • 原始运算能力几乎是上一代的 3 倍
  • 可以在 100 万个 TPU 上扩展训练规模
  • 大型模型训练时间从数月缩短为 短短几周

TPU 8i(推论用)

  • 专为推论设计,大幅提升运算速度
  • 低延迟是关键诉求

两者的共同点是 每瓦效能提升 2 倍。资本支出从 2022 年的 310 亿美元,跳到 2026 年预计的 1,900 亿美元——六年涨 6 倍。这钱花在哪?花在把 7 倍 token 增长跑起来的电费和硅片上。

三、Gemini 3.5 Flash:代理时代的主力模型

Google 同时公布了 Gemini 3.5 Flash 和即将到来的 Gemini 3.5 Pro。

3.1 性能定位

Gemini 3.5 Flash 走的是「前沿智慧 + 强代理能力」的路线。基准测试上比 3.1 Pro 全面提升,特别是 编程能力。Artificial Analysis 智慧指数对输出速度图里,它在「高效能高速度」象限独树一帜,速度是其他同类前沿模型的 4 倍

3.2 成本与商业价值

Flash 真正的杀手锏是成本。

“Flash 最令人令人惊叹的地方在于,它在提供前沿顶尖能力的同时,执行成本往往不到其他同级前沿模型的一半。”

Google 举了个真实案例:龙头企业每天处理 1 兆 token,如果把 80% 工作负载从其他前沿模型转移到 Gemini 3.5 Flash,每年可省下超过 10 亿美元

这不是营销话术——这是真实的 unit economics 拐点。

3.3 内部使用规模

  • 今年三月:Google 内部跨 AI 开发工具每天处理 5,000 亿 token
  • 如今:每天处理 超过 3 兆 token

两个月增长 6 倍。开发工具自己先用,再用这套范式去说服客户。

四、Antigravity 2.0:从代码编辑器到代理平台

Antigravity 2.0 是这次 I/O 最有产品感的一个发布。

它不再是单纯的编程环境,而是一个 多代理协同平台

  • 独立桌面应用
  • 配合 Flash 版本速度领先 4-12 倍
  • 即日起开放体验

简单说:Antigravity 1.0 是「人写代码,AI 补全」;2.0 是「人派任务,代理自己干」。这是 IDE 形态的本质变化。

五、Gemini Spark:你的 24 小时代理

Spark 是 Google 这次 I/O 最产品化的一个发布。

定位是 个人 AI 代理,全天候运行:

  • 跑在专属 Google Cloud VM 上
  • 由 Gemini 3.5 + Antigravity 框架支持
  • 通过 Gemini 应用、Email、即时通讯协作
  • Android 端有专门的 Android Halo UI 空间,实时查看代理任务进度
  • 未来会进 Chrome 浏览器,变成真正的 agentic browser

测试从本周开始,下周向 Google AI Ultra 订阅用户开放 Beta。

六、SynthID 与内容凭证:AI 内容的身份证

面对 deepfake 威胁,Google 把 SynthID 升级了:

  • 三年间为 1,000 亿张图片/视频 打了水印
  • 6 万年时长的音频 打了水印
  • 几百万人在 Gemini 应用里用 SynthID 检测

新功能 Content Credentials 区分内容是 AI 生成还是相机拍的,是否被 AI 编辑过。导入 Google 搜索和 Chrome。合作名单里新加了三家:OpenAI、Kakao、Eleven Labs——加上原来的 NVIDIA,AI 内容水印阵营基本齐了。

七、对工程师的实际意义

不要把这次 I/O 当成新闻看,里面有三条对工程团队有直接价值的信息:

第一,Flash 模型是 2026 年的成本基准线

如果你的 LLM 推理账单还在用 2024 年的模型价格,对照一下 Gemini 3.5 Flash。Google 自己都在内部把 80% 工作负载切到 Flash,省 10 亿美元/年。第三方不切是给 Google 让利。

第二,Antigravity 2.0 重新定义了 IDE

它把代理平台这件事写进产品形态里,而不是 API。VS Code、JetBrains 这类传统 IDE 的下一代形态,至少要支持多代理协作。

第三,3,200 兆 token/月是新的基础设施水位线

这是 Google 内部真实跑的数据。任何说自己做企业级 AI 服务的厂商,第一道门槛就是:你的月度 token 处理量在哪个量级? 百万级不够看,10 亿级是入门,兆级是及格线。

八、最后

Google I/O 2026 没有大模型「王炸」,但有一组更扎实的数据:

  • 3,200 兆 token/月
  • 850 万开发者
  • 1,900 亿美元资本支出
  • 50+ 产品深度集成

这套数据组合在一起,比单点突破更能说明问题:AI 已经过了「能不能用」的阶段,进入「能跑多大规模」的阶段

工程团队要做的不是评估这个模型那个模型能不能用——这些都已经在生产环境跑了。要做的是重新算 unit economics,重新设计架构,重新设计产品形态。代理时代的基础设施和单体模型时代不是同一回事。

Token 数涨 7 倍容易,难的是把对应的成本曲线压下来。Gemini 3.5 Flash 和 Antigravity 2.0 是 Google 这次交出的答卷。


← Back to blog