Google I/O 2026 复盘：3,200 兆 token 与 Gemini 3.5 Flash 的代理新纪元

Google 把 AI 算力的真实规模摆到了台面上。

2026 年 5 月 20 日的 I/O 大会，Sundar Pichai 公布了一组数据：Google 全平台每月处理的 token 数从去年 I/O 的 480 兆，涨到了 3,200 兆——年增 7 倍。这不是任何单一产品的功劳，是基础架构、模型、产品三层同时发力的结果。

一、Token 增长是 AI 时代的 GDP 指标

Token 不是炫技数据，它是 AI 真正进入生产环境的硬指标。

|| 时间 | 每月处理 token | ||------|---------------| || 2024 年 5 月 | 9.7 兆 | || 2025 年 I/O | 480 兆 | || 2026 年 5 月 | 3,200 兆 |

两年涨了 330 倍。这意味着 Google 内部的每一个搜索、每一条 Gmail 建议、每一段 Docs 摘要背后，都有模型在跑。同比也有一组对照数据：

模型 API 每分钟处理 190 亿个 token
超过 375 家 Google Cloud 企业客户 各自处理超过 1 兆 token
每月 850 万名开发人员 用 Google 模型构建应用

对照之下，去年同一时间这个数字是 480 兆/月。3,200 兆不是一个产品指标，是整个生态系统的吞吐水位线。

二、TPU 8i/8t：把双晶片策略搬到数据中心

算力爆发的根在硬件。第八代 TPU 首次采用双晶片策略，分成训练版和推论版两个 SKU。

TPU 8t（训练用）

原始运算能力几乎是上一代的 3 倍
可以在 100 万个 TPU 上扩展训练规模
大型模型训练时间从数月缩短为 短短几周

TPU 8i（推论用）

专为推论设计，大幅提升运算速度
低延迟是关键诉求

两者的共同点是 每瓦效能提升 2 倍。资本支出从 2022 年的 310 亿美元，跳到 2026 年预计的 1,900 亿美元——六年涨 6 倍。这钱花在哪？花在把 7 倍 token 增长跑起来的电费和硅片上。

三、Gemini 3.5 Flash：代理时代的主力模型

Google 同时公布了 Gemini 3.5 Flash 和即将到来的 Gemini 3.5 Pro。

3.1 性能定位

Gemini 3.5 Flash 走的是「前沿智慧 + 强代理能力」的路线。基准测试上比 3.1 Pro 全面提升，特别是 编程能力。Artificial Analysis 智慧指数对输出速度图里，它在「高效能高速度」象限独树一帜，速度是其他同类前沿模型的 4 倍。

3.2 成本与商业价值

Flash 真正的杀手锏是成本。

“Flash 最令人令人惊叹的地方在于，它在提供前沿顶尖能力的同时，执行成本往往不到其他同级前沿模型的一半。”

Google 举了个真实案例：龙头企业每天处理 1 兆 token，如果把 80% 工作负载从其他前沿模型转移到 Gemini 3.5 Flash，每年可省下超过 10 亿美元。

这不是营销话术——这是真实的 unit economics 拐点。

3.3 内部使用规模

今年三月：Google 内部跨 AI 开发工具每天处理 5,000 亿 token
如今：每天处理 超过 3 兆 token

两个月增长 6 倍。开发工具自己先用，再用这套范式去说服客户。

四、Antigravity 2.0：从代码编辑器到代理平台

Antigravity 2.0 是这次 I/O 最有产品感的一个发布。

它不再是单纯的编程环境，而是一个 多代理协同平台：

独立桌面应用
配合 Flash 版本速度领先 4-12 倍
即日起开放体验

简单说：Antigravity 1.0 是「人写代码，AI 补全」；2.0 是「人派任务，代理自己干」。这是 IDE 形态的本质变化。

五、Gemini Spark：你的 24 小时代理

Spark 是 Google 这次 I/O 最产品化的一个发布。

定位是 个人 AI 代理，全天候运行：

跑在专属 Google Cloud VM 上
由 Gemini 3.5 + Antigravity 框架支持
通过 Gemini 应用、Email、即时通讯协作
Android 端有专门的 Android Halo UI 空间，实时查看代理任务进度
未来会进 Chrome 浏览器，变成真正的 agentic browser

测试从本周开始，下周向 Google AI Ultra 订阅用户开放 Beta。

六、SynthID 与内容凭证：AI 内容的身份证

面对 deepfake 威胁，Google 把 SynthID 升级了：

三年间为 1,000 亿张图片/视频 打了水印
为 6 万年时长的音频 打了水印
几百万人在 Gemini 应用里用 SynthID 检测

新功能 Content Credentials 区分内容是 AI 生成还是相机拍的，是否被 AI 编辑过。导入 Google 搜索和 Chrome。合作名单里新加了三家：OpenAI、Kakao、Eleven Labs——加上原来的 NVIDIA，AI 内容水印阵营基本齐了。

七、对工程师的实际意义

不要把这次 I/O 当成新闻看，里面有三条对工程团队有直接价值的信息：

第一，Flash 模型是 2026 年的成本基准线

如果你的 LLM 推理账单还在用 2024 年的模型价格，对照一下 Gemini 3.5 Flash。Google 自己都在内部把 80% 工作负载切到 Flash，省 10 亿美元/年。第三方不切是给 Google 让利。

第二，Antigravity 2.0 重新定义了 IDE

它把代理平台这件事写进产品形态里，而不是 API。VS Code、JetBrains 这类传统 IDE 的下一代形态，至少要支持多代理协作。

第三，3,200 兆 token/月是新的基础设施水位线

这是 Google 内部真实跑的数据。任何说自己做企业级 AI 服务的厂商，第一道门槛就是：你的月度 token 处理量在哪个量级？ 百万级不够看，10 亿级是入门，兆级是及格线。

八、最后

Google I/O 2026 没有大模型「王炸」，但有一组更扎实的数据：

3,200 兆 token/月
850 万开发者
1,900 亿美元资本支出
50+ 产品深度集成

这套数据组合在一起，比单点突破更能说明问题：AI 已经过了「能不能用」的阶段，进入「能跑多大规模」的阶段。

工程团队要做的不是评估这个模型那个模型能不能用——这些都已经在生产环境跑了。要做的是重新算 unit economics，重新设计架构，重新设计产品形态。代理时代的基础设施和单体模型时代不是同一回事。

Token 数涨 7 倍容易，难的是把对应的成本曲线压下来。Gemini 3.5 Flash 和 Antigravity 2.0 是 Google 这次交出的答卷。

← Back to blog

Table of contents