你的AI管家永不眠：拆解Gemini Spark的云端Agent架构

引言

2026 年 5 月 19 日，Google I/O 主题演讲上，Sundar Pichai 说了一句话：“You can close your laptop.” 台下掌声雷动。

这句看似轻描淡写的话，背后是一个根本性的架构转向：AI 不再绑定在用户的设备上，而是跑在 Google Cloud 的专属虚拟机上，7×24 小时持续运行。

Gemini Spark 不是又一个聊天机器人。它是 Google 历史上推向消费者的最具野心的 AI Agent——一个云端驻留的、持续运行的、具备自主行动能力的”数字管家”。本文将拆解它的三层架构，深入到代码级别，理解每层的设计取舍。

一、架构总览：三层体系

从公开的技术资料和 Google 的工程师分享来看，Gemini Spark 的整体架构可以分为三层：

Gemini Spark 架构总览
Layer 3: 集成层 (MCP)
Gmail / Docs / Canva / OpenTable / Instacart / …
Layer 2: Agent Harness
Antigravity 2.0 — 目标持久化 / 任务分解 / 工具编排 / 状态恢复 / 安全约束
Layer 1: 模型层
Gemini 3.5 Flash (1M 上下文 / 64K 输出 / 4x~12x 加速)
底层基础设施
Google Cloud 专属 VM | Agent Gateway (DLP) | Agent Executor (分布式运行时)

每一层都有清晰的分工，并且——关键点——每一层都对开发者开放了对应的工具。

二、层一：模型层 — Gemini 3.5 Flash

Spark 的大脑是 Gemini 3.5 Flash。这不是简单的”模型升级”，而是 Google 对 Agent 工作负载的深度优化。

关键指标

指标	数值
输入上下文窗口	1M tokens
最大输出	64K tokens
Terminal-Bench 2.1	76.2% (超越 Gemini 3.1 Pro)
MCP Atlas	83.6%
CharXiv Reasoning	84.2%
推理速度 vs 其他前沿模型	4x (标准), 12x (Antigravity 优化版)
多模态支持	文本 / 图像 / 音频 / 视频
Dynamic Thinking	默认开启

为什么 3.5 Flash 适合 Agent 场景？

Google 在 Antigravity 环境中对 3.5 Flash 做了联合优化，达到标准推理速度的 12 倍。核心优化包括：

Speculative Tool-Call Prediction — 模型在生成回复的同时，预判下一轮工具调用，减少串行等待
Agentic Pattern 压缩 — 针对工具调用、状态追踪、任务分解等高频模式做模型级优化
长 Horizon 任务的原生支持 — 模型可以在不丢失上下文的前提下维持 10+ 推理步骤

Google 还透露 Gemini 3.5 Pro 正在进行内部测试，预计 2026 年 6 月公开——这将作为 Spark 的”重推理”引擎。

三、层二：Agent Harness — Antigravity 2.0

这是 Spark 真正的核心。Antigravity 不是一个 IDE，它是一个 Agent 运行时平台。

Antigravity 2.0 的四个形态

Antigravity 2.0 产品矩阵
├─ 桌面应用 — macOS / Linux / Windows，多 Agent 并行编排
│ (独立应用，非 IDE，内置 Agent 调度器)
├─ CLI — agy 命令，Go 编写，替换 Gemini CLI
│ (终端原生，同 Agent Harness，支持管道)
├─ SDK (Python) — pip install google-antigravity
│ (三层架构: Agent → Conversation → Connection)
└─ Managed Agents API — 单 API 调用即得隔离沙箱

核心组件：Agent Harness

能力	说明
Goal Persistence（目标持久化）	目标不会被对话上下文冲走，跨 session 持续生效
Task Decomposition（任务分解）	自动将复杂目标分解为 DAG 子任务
Tool Orchestration（工具编排）	管理工具调用的完整生命周期（发现→调用→重试→回退）
State Recovery（状态恢复）	Agent 崩溃后可以从最近快照恢复，不丢状态
Safety Constraints（安全约束）	“不越狱”的硬约束系统，manifest 声明即执行

Andrej Karpathy 的定义：Agent = Model + Harness。Antigravity 2.0 就是 Google 的 Harness。

Manifest 驱动设计

Spark（以及任何 Antigravity Agent）的行为由一个 manifest 文件定义。安全约束不是事后添加的——它们定义在 manifest 中，一等公民，运行时强制执行。

agent.yaml — Gemini Spark 的 Agent 配置

# agent.yaml
name: "pr-review-agent"
model: gemini-3.5-flash
persistence: cloud     # 运行在 Google Cloud VM 上，24/7

tools:
  mcp_servers:
    - endpoint: "https://github.mcp.io"
      auth: oauth
    - endpoint: "https://notion.mcp.io"
      auth: bearer_token

goals:
  - name: "daily-pr-digest"
    trigger: cron("0 9 * * 1-5")          # 工作日早上 9 点
    task: >
      Review all PRs opened since yesterday.
      Summarize findings, flag blocking issues,
      and post digest to #eng-reviews Slack channel.

safety:
  max_tool_calls_per_goal: 50
  require_user_confirm: ["git_push", "send_email", "payment_*"]
  allowed_data_sources: ["github.com", "notion.so", "localhost"]

超过 max_tool_calls_per_goal 不会静默超支——Agent 直接停止，要求人工介入。

多 Agent 编排

Antigravity 2.0 的核心创新之一是其编排层：

Dynamic Subagents — 主 Agent 可以动态创建子 Agent 来完成子任务，并行执行。每个 Agent 运行在独立的 goroutine 内，平台管理消息传递
Scheduled Tasks — 基于 cron 触发器的异步执行。Agent 可以设置定时任务，在后台无人值守运行
Shared State Store — 多个 Agent 共享状态，协同完成复杂工作流

Google 在 I/O 上展示了一个令人瞠目的 demo：用 Antigravity 2.0 + Gemini 3.5 Flash，12 小时内从零写出一个能运行 Doom 的操作系统，花费不到 $1000（26B tokens，15,000+ 模型请求）。

四、层三：集成层 — MCP 协议

Spark 与外部世界的连接通过 Model Context Protocol (MCP) 完成。MCP 被比喻为”AI 界的 USB-C”——一个标准化的协议，让 AI 模型与外部工具和数据源连接。

Google 官方 MCP 服务器

Google 在 github.com/google/mcp 维护了官方 MCP 服务器，覆盖 Google Cloud 全栈：

AlloyDB / BigQuery / Cloud SQL
Spanner / Firestore
Google Maps / Google Analytics
GKE / Compute Engine
Google Workspace (Docs, Sheets, Gmail)
Chrome DevTools
Genmedia (Imagen, Veo)
Cloud Security / Chronicle

MCP 网关

Antigravity 内置的 MCP 网关自动处理：服务发现、认证（OAuth 2.0 / Bearer Token）、连接管理（自动重连）、请求批处理、错误处理。

一个有趣的事实：为 Claude Code 写的 MCP 服务器，不需要任何修改就能被 Gemini Spark 使用。协议是相同的。

五、云上永续运行的秘密

这是 Spark 最核心的架构特性，也是最容易被忽视的。

传统 Chatbot vs. Gemini Spark

特性	传统 Gemini Chat	Gemini Spark
运行模式	按需、响应式	24/7、主动式
设备依赖	需要活跃 session	云端执行，设备关闭不间断
任务复杂度	单轮响应	多步工作流编排
学习能力	Session 内上下文	随时间学习用户习惯
集成深度	有限应用连接	Workspace + MCP 第三方集成

核心技术栈

Google Cloud 专属 VM — 每个 Spark 实例运行在隔离的虚拟机上。你关掉笔记本，VM 仍然在跑
Agent Executor — Google 2026 年 5 月新发布的分布式 Agent 运行时。基于事件日志（Event Log）和快照（Snapshotting）实现持久化执行（Durable Execution）。Agent 崩溃后可以从最近的快照恢复
Agent Substrate — 基于 Kubernetes 构建的新型控制平面，专为百万级 Agent 的亚秒级工具调用设计。标准 Kubernetes 擅长管理数千个长服务，Agent Substrate 则处理数百万个 Agent 的短暂高频调用
Agent Gateway — 所有流量经过网关，强制执行 Google 的 DLP（数据防泄漏）策略。凭据在沙箱中隔离，原始密钥永远不会到达语言模型

Agent Executor 的引入尤为关键。它通过 Single-Writer Architecture 保证分布式环境下的状态一致性——多个组件可能同时尝试更新 session 状态，但单写入者架构确保不会出现状态损坏。

六、代码级实践：用 Antigravity SDK 构建你自己的 Agent

Google 已经将 Spark 背后同样的技术通过 Antigravity SDK 开放给所有开发者：

安装

pip install google-antigravity

快速开始

hello_world.py

import asyncio
from google.antigravity import Agent, LocalAgentConfig

async def main():
    config = LocalAgentConfig(
        system_instructions="You are an expert assistant for codebase navigation.",
    )
    async with Agent(config) as agent:
        response = await agent.chat("What files are in the current directory?")
        print(await response.text())

asyncio.run(main())

注意：Agent 默认运行在 只读模式，这是安全设计。要启用所有工具（包括写操作），传入 CapabilitiesConfig()。

自定义工具

Agent 可以直接调用 Python 函数——类型注解自动推导 JSON Schema，无需手写。

tools.py

def get_weather(city: str) -> str:
    """Returns the current weather for a city."""
    return f"It's sunny in {city}."

config = LocalAgentConfig(tools=[get_weather])
async with Agent(config) as agent:
    response = await agent.chat("What's the weather in Tokyo?")

MCP 集成

mcp_integration.py

from google.antigravity.types import StdioServer

config = LocalAgentConfig(
    mcp_servers=[
        StdioServer(
            command="npx",
            args=["-y", "@modelcontextprotocol/server-github"],
        )
    ]
)

流式响应

streaming.py

response = await agent.chat("Explain the architecture.")
async for chunk in response.stream():
    print(chunk, end="", flush=True)

SDK 三层架构

层次	用途	关键类
层 1 — Simplified	顺手的免配置入口	`Agent`
层 2 — Session	有状态会话 + 历史管理	`Conversation`, `ChatResponse`, `Step`, `ToolCall`
层 3 — Adapter	传输层和后台抽象	`Connection`, `ConnectionStrategy`, `LocalConnection`

AGENTS.md — 声明式多 Agent 系统

项目根目录定义 AGENTS.md，声明多个 Agent 的角色和协作关系。Antigravity 读取后自动加载并编排。

AGENTS.md

agents:
  - name: "code-reviewer"
    role: "Code Review Agent"
    model: "gemini-3.5-flash"
    instructions: |
      Review code quality, security, and readability.
      Produce a prioritized list of issues.
    tools:
      - name: "github_pr_comment"
        description: "Post review comments to PR"

  - name: "doc-writer"
    role: "Documentation Agent"
    model: "gemini-3.5-flash"
    dependencies: ["code-reviewer"]
    instructions: |
      Based on code review results, update documentation.

manager_surface:
  enabled: true
  orchestrator: "manager"

七、安全与权限模型

这是 Spark 最有争议也最值得讨论的设计。

权限层次

层级	控制点	说明
身份认证	Google Account + AI Ultra 订阅	谁可以使用
数据访问	Connected Apps（默认关闭）	哪些应用可以被访问
操作授权	High-Stakes Actions（每次确认）	花钱、发邮件需确认
审计追踪	完整操作日志	每个操作都可回溯
数据边界	Google Cloud DLP + VPC SC	数据不越界

信任的张力

早期测试版（2026 年 5 月 14 日）的界面显示了一句风险提示：“Spark may do things like share your info or make purchases without asking.”

这引发了开发者社区的强烈关注。Google 在正式版中做了关键修改：

付款操作必须通过 Agent Payments Protocol (AP2) 显式批准
发邮件等高风险操作也需用户确认
每个操作都有完整的审计日志（Audit Trail），用户可以随时审查

正如 The Neuron 的分析所指出的：权限屏幕成了新的用户界面。如果太宽泛，用户会紧张；如果太狭窄，Agent 显得很笨；如果太频繁，所有人都像点 cookie 横幅一样随手通过。

八、开发者如何上手

步骤 1：安装 Antigravity CLI

终端

# macOS (Homebrew)
brew install antigravity-cli

# 或手动安装
curl -fsSL https://antigravity.google/install.sh | bash

# 验证安装
agy --version

步骤 2：创建一个 Agent

终端

agy init --name "my-spark-agent" --model gemini-3.5-flash

这会生成 agent.yaml + AGENTS.md + workspace/ + skills/ 目录结构。

步骤 3：连接到 MCP

终端

# 添加一个 MCP 服务器
agy mcp add github --endpoint https://github.mcp.io

# 查看当前连接的 MCP 服务器
agy mcp list

步骤 4：启动你的 Agent

终端

agy run "帮我每周一早上审查所有待处理的 PR"

这个 Agent 会部署到 Google Cloud 的托管环境，持续运行。

九、总结

Gemini Spark 最值得关注的不是它”能做什么”，而是它怎么做的：

云端持久化 — 不再受限于设备在线状态。Agent 跑在 Google Cloud 的专属 VM 上，你关掉笔记本它还在工作。这是从”用户发起对话”到”Agent 自主持续运行”的根本转变
Agent Harness 独立于模型 — Antigravity 2.0 的架构让模型和能力解耦。同样一套 Harness 既可以服务于消费者的 Spark，也可以服务于企业级 Agent Platform。Google 的战略是：模型会持续迭代，Harness 才是长期护城河
MCP 成为通用插槽 — 不管底层模型是 Gemini 3.5 Flash 还是未来的 3.5 Pro，MCP 工具层是可迁移的。为 Claude Code 写的 MCP 服务器在 Spark 上也能用——这意味着工具生态的投入是一次性的、跨平台的
安全内建于 manifest — 权限和约束不是在应用层”事后补充”的补丁，而是在 Agent 声明时就作为一等公民定义了。manifest 即契约，运行时强制执行

正如 Sundar Pichai 在 I/O 上所说：”We are firmly in our agentic Gemini era.” Spark 是这个时代的第一块基石。而 Antigravity 2.0 是带给每个开发者的工具箱。

运维速度

或者查看我们的热门类别...

运维速度

或者查看我们的热门类别...

你的AI管家永不眠：拆解Gemini Spark的云端Agent架构

引言

一、架构总览：三层体系

二、层一：模型层 — Gemini 3.5 Flash

关键指标

为什么 3.5 Flash 适合 Agent 场景？

三、层二：Agent Harness — Antigravity 2.0

Antigravity 2.0 的四个形态

核心组件：Agent Harness

Manifest 驱动设计

多 Agent 编排

四、层三：集成层 — MCP 协议

Google 官方 MCP 服务器

MCP 网关

五、云上永续运行的秘密

传统 Chatbot vs. Gemini Spark

核心技术栈

六、代码级实践：用 Antigravity SDK 构建你自己的 Agent

快速开始

自定义工具

MCP 集成

流式响应

SDK 三层架构

AGENTS.md — 声明式多 Agent 系统

七、安全与权限模型

权限层次

信任的张力

八、开发者如何上手

步骤 1：安装 Antigravity CLI

步骤 2：创建一个 Agent

步骤 3：连接到 MCP

步骤 4：启动你的 Agent

九、总结

u2

Related Posts

CodeGraph 让 AI 编程助手拥有”代码知识图谱”

MCP Gateway 完全指南：企业级 AI Agent 的控制平面

发表回复 取消回复

You Missed

你的AI管家永不眠：拆解Gemini Spark的云端Agent架构

CodeGraph 让 AI 编程助手拥有”代码知识图谱”

MCP Gateway 完全指南：企业级 AI Agent 的控制平面

技术深度解析：Model Context Protocol (MCP)

Hermes Agent 自动学习与成长原理深度解读

Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆，如何构建持续进化的 Agent

发表回复取消回复