Google I/O 2026 复盘:3,200 兆 token 与 Gemini 3.5 Flash 的代理新纪元
Google 把 AI 算力的真实规模摆到了台面上。
2026 年 5 月 20 日的 I/O 大会,Sundar Pichai 公布了一组数据:Google 全平台每月处理的 token 数从去年 I/O 的 480 兆,涨到了 3,200 兆——年增 7 倍。这不是任何单一产品的功劳,是基础架构、模型、产品三层同时发力的结果。
一、Token 增长是 AI 时代的 GDP 指标
Token 不是炫技数据,它是 AI 真正进入生产环境的硬指标。
|| 时间 | 每月处理 token | ||------|---------------| || 2024 年 5 月 | 9.7 兆 | || 2025 年 I/O | 480 兆 | || 2026 年 5 月 | 3,200 兆 |
两年涨了 330 倍。这意味着 Google 内部的每一个搜索、每一条 Gmail 建议、每一段 Docs 摘要背后,都有模型在跑。同比也有一组对照数据:
- 模型 API 每分钟处理 190 亿个 token
- 超过 375 家 Google Cloud 企业客户 各自处理超过 1 兆 token
- 每月 850 万名开发人员 用 Google 模型构建应用
对照之下,去年同一时间这个数字是 480 兆/月。3,200 兆不是一个产品指标,是整个生态系统的吞吐水位线。
二、TPU 8i/8t:把双晶片策略搬到数据中心
算力爆发的根在硬件。第八代 TPU 首次采用双晶片策略,分成训练版和推论版两个 SKU。
TPU 8t(训练用)
- 原始运算能力几乎是上一代的 3 倍
- 可以在 100 万个 TPU 上扩展训练规模
- 大型模型训练时间从数月缩短为 短短几周
TPU 8i(推论用)
- 专为推论设计,大幅提升运算速度
- 低延迟是关键诉求
两者的共同点是 每瓦效能提升 2 倍。资本支出从 2022 年的 310 亿美元,跳到 2026 年预计的 1,900 亿美元——六年涨 6 倍。这钱花在哪?花在把 7 倍 token 增长跑起来的电费和硅片上。
三、Gemini 3.5 Flash:代理时代的主力模型
Google 同时公布了 Gemini 3.5 Flash 和即将到来的 Gemini 3.5 Pro。
3.1 性能定位
Gemini 3.5 Flash 走的是「前沿智慧 + 强代理能力」的路线。基准测试上比 3.1 Pro 全面提升,特别是 编程能力。Artificial Analysis 智慧指数对输出速度图里,它在「高效能高速度」象限独树一帜,速度是其他同类前沿模型的 4 倍。
3.2 成本与商业价值
Flash 真正的杀手锏是成本。
“Flash 最令人令人惊叹的地方在于,它在提供前沿顶尖能力的同时,执行成本往往不到其他同级前沿模型的一半。”
Google 举了个真实案例:龙头企业每天处理 1 兆 token,如果把 80% 工作负载从其他前沿模型转移到 Gemini 3.5 Flash,每年可省下超过 10 亿美元。
这不是营销话术——这是真实的 unit economics 拐点。
3.3 内部使用规模
- 今年三月:Google 内部跨 AI 开发工具每天处理 5,000 亿 token
- 如今:每天处理 超过 3 兆 token
两个月增长 6 倍。开发工具自己先用,再用这套范式去说服客户。
四、Antigravity 2.0:从代码编辑器到代理平台
Antigravity 2.0 是这次 I/O 最有产品感的一个发布。
它不再是单纯的编程环境,而是一个 多代理协同平台:
- 独立桌面应用
- 配合 Flash 版本速度领先 4-12 倍
- 即日起开放体验
简单说:Antigravity 1.0 是「人写代码,AI 补全」;2.0 是「人派任务,代理自己干」。这是 IDE 形态的本质变化。
五、Gemini Spark:你的 24 小时代理
Spark 是 Google 这次 I/O 最产品化的一个发布。
定位是 个人 AI 代理,全天候运行:
- 跑在专属 Google Cloud VM 上
- 由 Gemini 3.5 + Antigravity 框架支持
- 通过 Gemini 应用、Email、即时通讯协作
- Android 端有专门的 Android Halo UI 空间,实时查看代理任务进度
- 未来会进 Chrome 浏览器,变成真正的 agentic browser
测试从本周开始,下周向 Google AI Ultra 订阅用户开放 Beta。
六、SynthID 与内容凭证:AI 内容的身份证
面对 deepfake 威胁,Google 把 SynthID 升级了:
- 三年间为 1,000 亿张图片/视频 打了水印
- 为 6 万年时长的音频 打了水印
- 几百万人在 Gemini 应用里用 SynthID 检测
新功能 Content Credentials 区分内容是 AI 生成还是相机拍的,是否被 AI 编辑过。导入 Google 搜索和 Chrome。合作名单里新加了三家:OpenAI、Kakao、Eleven Labs——加上原来的 NVIDIA,AI 内容水印阵营基本齐了。
七、对工程师的实际意义
不要把这次 I/O 当成新闻看,里面有三条对工程团队有直接价值的信息:
第一,Flash 模型是 2026 年的成本基准线
如果你的 LLM 推理账单还在用 2024 年的模型价格,对照一下 Gemini 3.5 Flash。Google 自己都在内部把 80% 工作负载切到 Flash,省 10 亿美元/年。第三方不切是给 Google 让利。
第二,Antigravity 2.0 重新定义了 IDE
它把代理平台这件事写进产品形态里,而不是 API。VS Code、JetBrains 这类传统 IDE 的下一代形态,至少要支持多代理协作。
第三,3,200 兆 token/月是新的基础设施水位线
这是 Google 内部真实跑的数据。任何说自己做企业级 AI 服务的厂商,第一道门槛就是:你的月度 token 处理量在哪个量级? 百万级不够看,10 亿级是入门,兆级是及格线。
八、最后
Google I/O 2026 没有大模型「王炸」,但有一组更扎实的数据:
- 3,200 兆 token/月
- 850 万开发者
- 1,900 亿美元资本支出
- 50+ 产品深度集成
这套数据组合在一起,比单点突破更能说明问题:AI 已经过了「能不能用」的阶段,进入「能跑多大规模」的阶段。
工程团队要做的不是评估这个模型那个模型能不能用——这些都已经在生产环境跑了。要做的是重新算 unit economics,重新设计架构,重新设计产品形态。代理时代的基础设施和单体模型时代不是同一回事。
Token 数涨 7 倍容易,难的是把对应的成本曲线压下来。Gemini 3.5 Flash 和 Antigravity 2.0 是 Google 这次交出的答卷。
← Back to blog