你的AI管家永不眠:拆解Gemini Spark的云端Agent架构

  • AI
  • 5月 22, 2026
  • 0 评论

引言

2026 年 5 月 19 日,Google I/O 主题演讲上,Sundar Pichai 说了一句话:“You can close your laptop.” 台下掌声雷动。

这句看似轻描淡写的话,背后是一个根本性的架构转向:AI 不再绑定在用户的设备上,而是跑在 Google Cloud 的专属虚拟机上,7×24 小时持续运行。

Gemini Spark 不是又一个聊天机器人。它是 Google 历史上推向消费者的最具野心的 AI Agent——一个云端驻留的、持续运行的、具备自主行动能力的”数字管家”。本文将拆解它的三层架构,深入到代码级别,理解每层的设计取舍。

一、架构总览:三层体系

从公开的技术资料和 Google 的工程师分享来看,Gemini Spark 的整体架构可以分为三层:

Gemini Spark 架构总览
Layer 3: 集成层 (MCP)
Gmail / Docs / Canva / OpenTable / Instacart / …
Layer 2: Agent Harness
Antigravity 2.0 — 目标持久化 / 任务分解 / 工具编排 / 状态恢复 / 安全约束
Layer 1: 模型层
Gemini 3.5 Flash (1M 上下文 / 64K 输出 / 4x~12x 加速)
底层基础设施
Google Cloud 专属 VM | Agent Gateway (DLP) | Agent Executor (分布式运行时)

每一层都有清晰的分工,并且——关键点——每一层都对开发者开放了对应的工具。

二、层一:模型层 — Gemini 3.5 Flash

Spark 的大脑是 Gemini 3.5 Flash。这不是简单的”模型升级”,而是 Google 对 Agent 工作负载的深度优化。

关键指标

指标 数值
输入上下文窗口 1M tokens
最大输出 64K tokens
Terminal-Bench 2.1 76.2% (超越 Gemini 3.1 Pro)
MCP Atlas 83.6%
CharXiv Reasoning 84.2%
推理速度 vs 其他前沿模型 4x (标准), 12x (Antigravity 优化版)
多模态支持 文本 / 图像 / 音频 / 视频
Dynamic Thinking 默认开启

为什么 3.5 Flash 适合 Agent 场景?

Google 在 Antigravity 环境中对 3.5 Flash 做了联合优化,达到标准推理速度的 12 倍。核心优化包括:

  • Speculative Tool-Call Prediction — 模型在生成回复的同时,预判下一轮工具调用,减少串行等待
  • Agentic Pattern 压缩 — 针对工具调用、状态追踪、任务分解等高频模式做模型级优化
  • 长 Horizon 任务的原生支持 — 模型可以在不丢失上下文的前提下维持 10+ 推理步骤

Google 还透露 Gemini 3.5 Pro 正在进行内部测试,预计 2026 年 6 月公开——这将作为 Spark 的”重推理”引擎。

三、层二:Agent Harness — Antigravity 2.0

这是 Spark 真正的核心。Antigravity 不是一个 IDE,它是一个 Agent 运行时平台

Antigravity 2.0 的四个形态

Antigravity 2.0 产品矩阵
├─ 桌面应用 — macOS / Linux / Windows,多 Agent 并行编排
│ (独立应用,非 IDE,内置 Agent 调度器)
├─ CLIagy 命令,Go 编写,替换 Gemini CLI
│ (终端原生,同 Agent Harness,支持管道)
├─ SDK (Python)pip install google-antigravity
│ (三层架构: Agent → Conversation → Connection)
└─ Managed Agents API — 单 API 调用即得隔离沙箱

核心组件:Agent Harness

能力 说明
Goal Persistence(目标持久化) 目标不会被对话上下文冲走,跨 session 持续生效
Task Decomposition(任务分解) 自动将复杂目标分解为 DAG 子任务
Tool Orchestration(工具编排) 管理工具调用的完整生命周期(发现→调用→重试→回退)
State Recovery(状态恢复) Agent 崩溃后可以从最近快照恢复,不丢状态
Safety Constraints(安全约束) “不越狱”的硬约束系统,manifest 声明即执行

Andrej Karpathy 的定义:Agent = Model + Harness。Antigravity 2.0 就是 Google 的 Harness。

Manifest 驱动设计

Spark(以及任何 Antigravity Agent)的行为由一个 manifest 文件定义。安全约束不是事后添加的——它们定义在 manifest 中,一等公民,运行时强制执行。

agent.yaml — Gemini Spark 的 Agent 配置
# agent.yaml
name: "pr-review-agent"
model: gemini-3.5-flash
persistence: cloud     # 运行在 Google Cloud VM 上,24/7

tools:
  mcp_servers:
    - endpoint: "https://github.mcp.io"
      auth: oauth
    - endpoint: "https://notion.mcp.io"
      auth: bearer_token

goals:
  - name: "daily-pr-digest"
    trigger: cron("0 9 * * 1-5")          # 工作日早上 9 点
    task: >
      Review all PRs opened since yesterday.
      Summarize findings, flag blocking issues,
      and post digest to #eng-reviews Slack channel.

safety:
  max_tool_calls_per_goal: 50
  require_user_confirm: ["git_push", "send_email", "payment_*"]
  allowed_data_sources: ["github.com", "notion.so", "localhost"]

超过 max_tool_calls_per_goal 不会静默超支——Agent 直接停止,要求人工介入。

多 Agent 编排

Antigravity 2.0 的核心创新之一是其编排层:

  • Dynamic Subagents — 主 Agent 可以动态创建子 Agent 来完成子任务,并行执行。每个 Agent 运行在独立的 goroutine 内,平台管理消息传递
  • Scheduled Tasks — 基于 cron 触发器的异步执行。Agent 可以设置定时任务,在后台无人值守运行
  • Shared State Store — 多个 Agent 共享状态,协同完成复杂工作流

Google 在 I/O 上展示了一个令人瞠目的 demo:用 Antigravity 2.0 + Gemini 3.5 Flash,12 小时内从零写出一个能运行 Doom 的操作系统,花费不到 $1000(26B tokens,15,000+ 模型请求)。

四、层三:集成层 — MCP 协议

Spark 与外部世界的连接通过 Model Context Protocol (MCP) 完成。MCP 被比喻为”AI 界的 USB-C”——一个标准化的协议,让 AI 模型与外部工具和数据源连接。

Google 官方 MCP 服务器

Google 在 github.com/google/mcp 维护了官方 MCP 服务器,覆盖 Google Cloud 全栈:

  • AlloyDB / BigQuery / Cloud SQL
  • Spanner / Firestore
  • Google Maps / Google Analytics
  • GKE / Compute Engine
  • Google Workspace (Docs, Sheets, Gmail)
  • Chrome DevTools
  • Genmedia (Imagen, Veo)
  • Cloud Security / Chronicle

MCP 网关

Antigravity 内置的 MCP 网关自动处理:服务发现、认证(OAuth 2.0 / Bearer Token)、连接管理(自动重连)、请求批处理、错误处理。

一个有趣的事实:为 Claude Code 写的 MCP 服务器,不需要任何修改就能被 Gemini Spark 使用。协议是相同的。

五、云上永续运行的秘密

这是 Spark 最核心的架构特性,也是最容易被忽视的。

传统 Chatbot vs. Gemini Spark

特性 传统 Gemini Chat Gemini Spark
运行模式 按需、响应式 24/7、主动式
设备依赖 需要活跃 session 云端执行,设备关闭不间断
任务复杂度 单轮响应 多步工作流编排
学习能力 Session 内上下文 随时间学习用户习惯
集成深度 有限应用连接 Workspace + MCP 第三方集成

核心技术栈

  1. Google Cloud 专属 VM — 每个 Spark 实例运行在隔离的虚拟机上。你关掉笔记本,VM 仍然在跑
  2. Agent Executor — Google 2026 年 5 月新发布的分布式 Agent 运行时。基于事件日志(Event Log)和快照(Snapshotting)实现持久化执行(Durable Execution)。Agent 崩溃后可以从最近的快照恢复
  3. Agent Substrate — 基于 Kubernetes 构建的新型控制平面,专为百万级 Agent 的亚秒级工具调用设计。标准 Kubernetes 擅长管理数千个长服务,Agent Substrate 则处理数百万个 Agent 的短暂高频调用
  4. Agent Gateway — 所有流量经过网关,强制执行 Google 的 DLP(数据防泄漏)策略。凭据在沙箱中隔离,原始密钥永远不会到达语言模型

Agent Executor 的引入尤为关键。它通过 Single-Writer Architecture 保证分布式环境下的状态一致性——多个组件可能同时尝试更新 session 状态,但单写入者架构确保不会出现状态损坏。

六、代码级实践:用 Antigravity SDK 构建你自己的 Agent

Google 已经将 Spark 背后同样的技术通过 Antigravity SDK 开放给所有开发者:

安装
pip install google-antigravity

快速开始

hello_world.py
import asyncio
from google.antigravity import Agent, LocalAgentConfig

async def main():
    config = LocalAgentConfig(
        system_instructions="You are an expert assistant for codebase navigation.",
    )
    async with Agent(config) as agent:
        response = await agent.chat("What files are in the current directory?")
        print(await response.text())

asyncio.run(main())

注意:Agent 默认运行在 只读模式,这是安全设计。要启用所有工具(包括写操作),传入 CapabilitiesConfig()

自定义工具

Agent 可以直接调用 Python 函数——类型注解自动推导 JSON Schema,无需手写。

tools.py
def get_weather(city: str) -> str:
    """Returns the current weather for a city."""
    return f"It's sunny in {city}."

config = LocalAgentConfig(tools=[get_weather])
async with Agent(config) as agent:
    response = await agent.chat("What's the weather in Tokyo?")

MCP 集成

mcp_integration.py
from google.antigravity.types import StdioServer

config = LocalAgentConfig(
    mcp_servers=[
        StdioServer(
            command="npx",
            args=["-y", "@modelcontextprotocol/server-github"],
        )
    ]
)

流式响应

streaming.py
response = await agent.chat("Explain the architecture.")
async for chunk in response.stream():
    print(chunk, end="", flush=True)

SDK 三层架构

层次 用途 关键类
层 1 — Simplified 顺手的免配置入口 Agent
层 2 — Session 有状态会话 + 历史管理 Conversation, ChatResponse, Step, ToolCall
层 3 — Adapter 传输层和后台抽象 Connection, ConnectionStrategy, LocalConnection

AGENTS.md — 声明式多 Agent 系统

项目根目录定义 AGENTS.md,声明多个 Agent 的角色和协作关系。Antigravity 读取后自动加载并编排。

AGENTS.md
agents:
  - name: "code-reviewer"
    role: "Code Review Agent"
    model: "gemini-3.5-flash"
    instructions: |
      Review code quality, security, and readability.
      Produce a prioritized list of issues.
    tools:
      - name: "github_pr_comment"
        description: "Post review comments to PR"

  - name: "doc-writer"
    role: "Documentation Agent"
    model: "gemini-3.5-flash"
    dependencies: ["code-reviewer"]
    instructions: |
      Based on code review results, update documentation.

manager_surface:
  enabled: true
  orchestrator: "manager"

七、安全与权限模型

这是 Spark 最有争议也最值得讨论的设计。

权限层次

层级 控制点 说明
身份认证 Google Account + AI Ultra 订阅 谁可以使用
数据访问 Connected Apps(默认关闭) 哪些应用可以被访问
操作授权 High-Stakes Actions(每次确认) 花钱、发邮件需确认
审计追踪 完整操作日志 每个操作都可回溯
数据边界 Google Cloud DLP + VPC SC 数据不越界

信任的张力

早期测试版(2026 年 5 月 14 日)的界面显示了一句风险提示:“Spark may do things like share your info or make purchases without asking.”

这引发了开发者社区的强烈关注。Google 在正式版中做了关键修改:

  • 付款操作 必须 通过 Agent Payments Protocol (AP2) 显式批准
  • 发邮件等高风险操作也需用户确认
  • 每个操作都有完整的审计日志(Audit Trail),用户可以随时审查

正如 The Neuron 的分析所指出的:权限屏幕成了新的用户界面。如果太宽泛,用户会紧张;如果太狭窄,Agent 显得很笨;如果太频繁,所有人都像点 cookie 横幅一样随手通过。

八、开发者如何上手

步骤 1:安装 Antigravity CLI

终端
# macOS (Homebrew)
brew install antigravity-cli

# 或手动安装
curl -fsSL https://antigravity.google/install.sh | bash

# 验证安装
agy --version

步骤 2:创建一个 Agent

终端
agy init --name "my-spark-agent" --model gemini-3.5-flash

这会生成 agent.yaml + AGENTS.md + workspace/ + skills/ 目录结构。

步骤 3:连接到 MCP

终端
# 添加一个 MCP 服务器
agy mcp add github --endpoint https://github.mcp.io

# 查看当前连接的 MCP 服务器
agy mcp list

步骤 4:启动你的 Agent

终端
agy run "帮我每周一早上审查所有待处理的 PR"

这个 Agent 会部署到 Google Cloud 的托管环境,持续运行。

九、总结

Gemini Spark 最值得关注的不是它”能做什么”,而是它怎么做的:

  1. 云端持久化 — 不再受限于设备在线状态。Agent 跑在 Google Cloud 的专属 VM 上,你关掉笔记本它还在工作。这是从”用户发起对话”到”Agent 自主持续运行”的根本转变
  2. Agent Harness 独立于模型 — Antigravity 2.0 的架构让模型和能力解耦。同样一套 Harness 既可以服务于消费者的 Spark,也可以服务于企业级 Agent Platform。Google 的战略是:模型会持续迭代,Harness 才是长期护城河
  3. MCP 成为通用插槽 — 不管底层模型是 Gemini 3.5 Flash 还是未来的 3.5 Pro,MCP 工具层是可迁移的。为 Claude Code 写的 MCP 服务器在 Spark 上也能用——这意味着工具生态的投入是一次性的、跨平台的
  4. 安全内建于 manifest — 权限和约束不是在应用层”事后补充”的补丁,而是在 Agent 声明时就作为一等公民定义了。manifest 即契约,运行时强制执行

正如 Sundar Pichai 在 I/O 上所说:”We are firmly in our agentic Gemini era.” Spark 是这个时代的第一块基石。而 Antigravity 2.0 是带给每个开发者的工具箱。

u2

Related Posts

CodeGraph 让 AI 编程助手拥有”代码知识图谱”

CodeGraph:给AI代理一个预索引的代码知识图谱,包含符号关系、调用图和代码结构。代理可以直接查询图谱,而不是漫无目的地扫描文件。

Read more

MCP Gateway 完全指南:企业级 AI Agent 的控制平面

深入解析 MCP Gateway 的核心概念、架构设计、关键特性,以及为什么企业需要部署 MCP 网关来治理 AI Agent。

Read more

发表回复

You Missed

你的AI管家永不眠:拆解Gemini Spark的云端Agent架构

  • u2
  • 5月 22, 2026
  • 21 views

CodeGraph 让 AI 编程助手拥有”代码知识图谱”

  • u2
  • 5月 19, 2026
  • 150 views

MCP Gateway 完全指南:企业级 AI Agent 的控制平面

  • u2
  • 5月 17, 2026
  • 53 views

技术深度解析:Model Context Protocol (MCP)

  • u2
  • 5月 16, 2026
  • 58 views

Hermes Agent 自动学习与成长原理深度解读

  • u2
  • 5月 14, 2026
  • 108 views

Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆,如何构建持续进化的 Agent

  • u2
  • 5月 11, 2026
  • 105 views
Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆,如何构建持续进化的 Agent