引言
2026 年 5 月 19 日,Google I/O 主题演讲上,Sundar Pichai 说了一句话:“You can close your laptop.” 台下掌声雷动。
这句看似轻描淡写的话,背后是一个根本性的架构转向:AI 不再绑定在用户的设备上,而是跑在 Google Cloud 的专属虚拟机上,7×24 小时持续运行。
Gemini Spark 不是又一个聊天机器人。它是 Google 历史上推向消费者的最具野心的 AI Agent——一个云端驻留的、持续运行的、具备自主行动能力的”数字管家”。本文将拆解它的三层架构,深入到代码级别,理解每层的设计取舍。
一、架构总览:三层体系
从公开的技术资料和 Google 的工程师分享来看,Gemini Spark 的整体架构可以分为三层:
每一层都有清晰的分工,并且——关键点——每一层都对开发者开放了对应的工具。
二、层一:模型层 — Gemini 3.5 Flash
Spark 的大脑是 Gemini 3.5 Flash。这不是简单的”模型升级”,而是 Google 对 Agent 工作负载的深度优化。
关键指标
| 指标 | 数值 |
|---|---|
| 输入上下文窗口 | 1M tokens |
| 最大输出 | 64K tokens |
| Terminal-Bench 2.1 | 76.2% (超越 Gemini 3.1 Pro) |
| MCP Atlas | 83.6% |
| CharXiv Reasoning | 84.2% |
| 推理速度 vs 其他前沿模型 | 4x (标准), 12x (Antigravity 优化版) |
| 多模态支持 | 文本 / 图像 / 音频 / 视频 |
| Dynamic Thinking | 默认开启 |
为什么 3.5 Flash 适合 Agent 场景?
Google 在 Antigravity 环境中对 3.5 Flash 做了联合优化,达到标准推理速度的 12 倍。核心优化包括:
- Speculative Tool-Call Prediction — 模型在生成回复的同时,预判下一轮工具调用,减少串行等待
- Agentic Pattern 压缩 — 针对工具调用、状态追踪、任务分解等高频模式做模型级优化
- 长 Horizon 任务的原生支持 — 模型可以在不丢失上下文的前提下维持 10+ 推理步骤
Google 还透露 Gemini 3.5 Pro 正在进行内部测试,预计 2026 年 6 月公开——这将作为 Spark 的”重推理”引擎。
三、层二:Agent Harness — Antigravity 2.0
这是 Spark 真正的核心。Antigravity 不是一个 IDE,它是一个 Agent 运行时平台。
Antigravity 2.0 的四个形态
核心组件:Agent Harness
| 能力 | 说明 |
|---|---|
| Goal Persistence(目标持久化) | 目标不会被对话上下文冲走,跨 session 持续生效 |
| Task Decomposition(任务分解) | 自动将复杂目标分解为 DAG 子任务 |
| Tool Orchestration(工具编排) | 管理工具调用的完整生命周期(发现→调用→重试→回退) |
| State Recovery(状态恢复) | Agent 崩溃后可以从最近快照恢复,不丢状态 |
| Safety Constraints(安全约束) | “不越狱”的硬约束系统,manifest 声明即执行 |
Andrej Karpathy 的定义:Agent = Model + Harness。Antigravity 2.0 就是 Google 的 Harness。
Manifest 驱动设计
Spark(以及任何 Antigravity Agent)的行为由一个 manifest 文件定义。安全约束不是事后添加的——它们定义在 manifest 中,一等公民,运行时强制执行。
超过 max_tool_calls_per_goal 不会静默超支——Agent 直接停止,要求人工介入。
多 Agent 编排
Antigravity 2.0 的核心创新之一是其编排层:
- Dynamic Subagents — 主 Agent 可以动态创建子 Agent 来完成子任务,并行执行。每个 Agent 运行在独立的 goroutine 内,平台管理消息传递
- Scheduled Tasks — 基于 cron 触发器的异步执行。Agent 可以设置定时任务,在后台无人值守运行
- Shared State Store — 多个 Agent 共享状态,协同完成复杂工作流
Google 在 I/O 上展示了一个令人瞠目的 demo:用 Antigravity 2.0 + Gemini 3.5 Flash,12 小时内从零写出一个能运行 Doom 的操作系统,花费不到 $1000(26B tokens,15,000+ 模型请求)。
四、层三:集成层 — MCP 协议
Spark 与外部世界的连接通过 Model Context Protocol (MCP) 完成。MCP 被比喻为”AI 界的 USB-C”——一个标准化的协议,让 AI 模型与外部工具和数据源连接。
Google 官方 MCP 服务器
Google 在 github.com/google/mcp 维护了官方 MCP 服务器,覆盖 Google Cloud 全栈:
- AlloyDB / BigQuery / Cloud SQL
- Spanner / Firestore
- Google Maps / Google Analytics
- GKE / Compute Engine
- Google Workspace (Docs, Sheets, Gmail)
- Chrome DevTools
- Genmedia (Imagen, Veo)
- Cloud Security / Chronicle
MCP 网关
Antigravity 内置的 MCP 网关自动处理:服务发现、认证(OAuth 2.0 / Bearer Token)、连接管理(自动重连)、请求批处理、错误处理。
一个有趣的事实:为 Claude Code 写的 MCP 服务器,不需要任何修改就能被 Gemini Spark 使用。协议是相同的。
五、云上永续运行的秘密
这是 Spark 最核心的架构特性,也是最容易被忽视的。
传统 Chatbot vs. Gemini Spark
| 特性 | 传统 Gemini Chat | Gemini Spark |
|---|---|---|
| 运行模式 | 按需、响应式 | 24/7、主动式 |
| 设备依赖 | 需要活跃 session | 云端执行,设备关闭不间断 |
| 任务复杂度 | 单轮响应 | 多步工作流编排 |
| 学习能力 | Session 内上下文 | 随时间学习用户习惯 |
| 集成深度 | 有限应用连接 | Workspace + MCP 第三方集成 |
核心技术栈
- Google Cloud 专属 VM — 每个 Spark 实例运行在隔离的虚拟机上。你关掉笔记本,VM 仍然在跑
- Agent Executor — Google 2026 年 5 月新发布的分布式 Agent 运行时。基于事件日志(Event Log)和快照(Snapshotting)实现持久化执行(Durable Execution)。Agent 崩溃后可以从最近的快照恢复
- Agent Substrate — 基于 Kubernetes 构建的新型控制平面,专为百万级 Agent 的亚秒级工具调用设计。标准 Kubernetes 擅长管理数千个长服务,Agent Substrate 则处理数百万个 Agent 的短暂高频调用
- Agent Gateway — 所有流量经过网关,强制执行 Google 的 DLP(数据防泄漏)策略。凭据在沙箱中隔离,原始密钥永远不会到达语言模型
Agent Executor 的引入尤为关键。它通过 Single-Writer Architecture 保证分布式环境下的状态一致性——多个组件可能同时尝试更新 session 状态,但单写入者架构确保不会出现状态损坏。
六、代码级实践:用 Antigravity SDK 构建你自己的 Agent
Google 已经将 Spark 背后同样的技术通过 Antigravity SDK 开放给所有开发者:
快速开始
注意:Agent 默认运行在 只读模式,这是安全设计。要启用所有工具(包括写操作),传入 CapabilitiesConfig()。
自定义工具
Agent 可以直接调用 Python 函数——类型注解自动推导 JSON Schema,无需手写。
MCP 集成
流式响应
SDK 三层架构
| 层次 | 用途 | 关键类 |
|---|---|---|
| 层 1 — Simplified | 顺手的免配置入口 | Agent |
| 层 2 — Session | 有状态会话 + 历史管理 | Conversation, ChatResponse, Step, ToolCall |
| 层 3 — Adapter | 传输层和后台抽象 | Connection, ConnectionStrategy, LocalConnection |
AGENTS.md — 声明式多 Agent 系统
项目根目录定义 AGENTS.md,声明多个 Agent 的角色和协作关系。Antigravity 读取后自动加载并编排。
七、安全与权限模型
这是 Spark 最有争议也最值得讨论的设计。
权限层次
| 层级 | 控制点 | 说明 |
|---|---|---|
| 身份认证 | Google Account + AI Ultra 订阅 | 谁可以使用 |
| 数据访问 | Connected Apps(默认关闭) | 哪些应用可以被访问 |
| 操作授权 | High-Stakes Actions(每次确认) | 花钱、发邮件需确认 |
| 审计追踪 | 完整操作日志 | 每个操作都可回溯 |
| 数据边界 | Google Cloud DLP + VPC SC | 数据不越界 |
信任的张力
早期测试版(2026 年 5 月 14 日)的界面显示了一句风险提示:“Spark may do things like share your info or make purchases without asking.”
这引发了开发者社区的强烈关注。Google 在正式版中做了关键修改:
- 付款操作 必须 通过 Agent Payments Protocol (AP2) 显式批准
- 发邮件等高风险操作也需用户确认
- 每个操作都有完整的审计日志(Audit Trail),用户可以随时审查
正如 The Neuron 的分析所指出的:权限屏幕成了新的用户界面。如果太宽泛,用户会紧张;如果太狭窄,Agent 显得很笨;如果太频繁,所有人都像点 cookie 横幅一样随手通过。
八、开发者如何上手
步骤 1:安装 Antigravity CLI
步骤 2:创建一个 Agent
这会生成 agent.yaml + AGENTS.md + workspace/ + skills/ 目录结构。
步骤 3:连接到 MCP
步骤 4:启动你的 Agent
这个 Agent 会部署到 Google Cloud 的托管环境,持续运行。
九、总结
Gemini Spark 最值得关注的不是它”能做什么”,而是它怎么做的:
- 云端持久化 — 不再受限于设备在线状态。Agent 跑在 Google Cloud 的专属 VM 上,你关掉笔记本它还在工作。这是从”用户发起对话”到”Agent 自主持续运行”的根本转变
- Agent Harness 独立于模型 — Antigravity 2.0 的架构让模型和能力解耦。同样一套 Harness 既可以服务于消费者的 Spark,也可以服务于企业级 Agent Platform。Google 的战略是:模型会持续迭代,Harness 才是长期护城河
- MCP 成为通用插槽 — 不管底层模型是 Gemini 3.5 Flash 还是未来的 3.5 Pro,MCP 工具层是可迁移的。为 Claude Code 写的 MCP 服务器在 Spark 上也能用——这意味着工具生态的投入是一次性的、跨平台的
- 安全内建于 manifest — 权限和约束不是在应用层”事后补充”的补丁,而是在 Agent 声明时就作为一等公民定义了。manifest 即契约,运行时强制执行
正如 Sundar Pichai 在 I/O 上所说:”We are firmly in our agentic Gemini era.” Spark 是这个时代的第一块基石。而 Antigravity 2.0 是带给每个开发者的工具箱。
