Gemini Spark深度拆解：Google给AI一台永不关机的云服务器-编程实验室

今天凌晨1点，Google I/O 2026开幕。整场发布会信息量爆炸，但如果只让我选一个最值得工程师深挖的产品，我会毫不犹豫地选Gemini Spark。

不是因为它最酷炫——Omni的视频生成显然更有视觉冲击力。而是因为Spark代表了一个根本性的架构范式转移：AI助手从"请求-响应"模式，进化为"持续运行的后台Agent"。这意味着什么？意味着你的AI不再是一个被动的命令行工具，而是一个7×24小时运行在云端VM上的"数字员工"。

作为一个正在折腾各种Agent框架的工程师，看到这个架构设计我是既兴奋又恐惧的——兴奋是因为终于有大厂把"永续Agent"这件事工程化落地了；恐惧是因为……它暴露的架构复杂度简直是一座冰山。

今天就来从工程视角，一层层拆开这个产品。

从Stateless到Stateful：一次范式级跃迁

先说一个直觉上的对比。

过去的Gemini Assistant（包括ChatGPT、Claude）本质上都是无状态的：你发一条消息，模型生成一个回复，这次"会话"就结束了。Extensions和Function Calling让它能在对话中调用工具，但每次交互仍然受限于一个请求生命周期——用完即释放。

Spark打破了这个模型。它的核心特征用一句话概括：

一个持久化运行在Google Cloud VM上的Agent进程，
维护跨小时/天的目标状态，自主执行异步任务。

普通的API调用生命周期是秒级。Spark的生命周期是天级。这个gap就是整个产品。

用个类比：过去的AI助手是你叫了一辆出租车——上车说目的地、到了下车、司机走人。Spark是你雇了一个全职司机——他24小时在车库待命，你没上车的时候他也在帮你洗车加油检查路况。

架构拆解：Spark的三层设计

根据Google I/O上披露的信息和开发者文档（Antigravity 2.0 SDK），Spark的架构可以分为三层：

Layer 1：Agent Harness（代理容器）

这是Spark的"操作系统"。负责：

•Goal Persistence：目标状态持久化。你说"帮我追踪下周二那个面试的所有准备材料"，这个目标不会因为你合上笔记本就消失。

•Task Decomposition：把一个大目标拆成可执行的子任务序列。

•Tool Orchestration：按序或并行调用外部工具（Gmail、Calendar、Drive等）。

•Safety Constraints：边界控制——哪些操作可以自主执行，哪些必须征求用户同意。

•State Recovery：崩溃恢复。VM挂了怎么办？任务执行到一半断了怎么办？

从工程角度看，这就是一个经典的有状态长时任务调度器。如果你做过消息队列或者workflow engine（比如Temporal/Cadence），会觉得这套东西很眼熟。本质上是：

// 伪代码：Spark Agent的核心循环 while (agent.isAlive()) { Goal goal = goalStore.getNext(); if (goal == null) { // 没有主动目标时，进入监控模式 monitorInbox(); monitorCalendar(); checkTriggers(); sleep(POLL_INTERVAL); continue; } List<Task> tasks = decompose(goal); for (Task task : tasks) { if (task.requiresApproval()) { requestUserConfirmation(task); continue; // 等用户回复 } Result result = execute(task); goalStore.updateProgress(goal, result); checkpoint(); // 持久化状态 } }

注意那个checkpoint()——这是永续Agent最关键的设计点。没有它，VM一重启你的Agent就失忆了。有了它，即使宿主机器挂了，新VM拉起来能从上次的checkpoint继续执行。

Layer 2：Orchestration Layer（编排层）

Antigravity 2.0的新能力：多Agent并行编排。你可以同时起多个Agent，给它们分配不同目标，它们之间通过共享状态存储协调。

Google给的例子是"策划社区派对"：

• Agent A 负责追踪邀请回复 → 操作Gmail

• Agent B 负责生成宣传物料 → 操作Slides

• Agent C 负责维护物品清单 → 操作Sheets

• 主Agent协调三者进度，汇总报告给用户

在Antigravity的runtime内部，每个Agent跑在独立的goroutine上（没错，Google用Go写的这套基础设施），Agent间通信走内部消息传递而非HTTP，延迟极低。

这让我想到一个有意思的对比：OpenAI的Codex是"一次性干完一件大事"（类似batch job），Anthropic的Claude Code是"在terminal里陪你pair programming"（类似REPL），而Spark是"后台一直转着的daemon"。三者对应了三种完全不同的Agent运行模型。

Layer 3：MCP Gateway（工具连接层）

这层负责和外部世界对话。Spark原生支持Google全家桶（Gmail/Calendar/Drive/Docs/Sheets/Slides），同时通过**MCP（Model Context Protocol）**连接第三方服务。

MCP是Anthropic去年底开源的协议，Google现在正式拥抱了它。Antigravity 2.0的manifest配置长这样：

# Antigravity 2.0 Agent Manifest name: "pr-review-agent" model: gemini-3.5-flash persistence: cloud tools: mcp_servers: - endpoint: "https://github.mcp.io" auth: oauth - endpoint: "https://notion.mcp.io" auth: bearer_token - endpoint: "http://localhost:3001" auth: none goals: - name: "daily-pr-digest" trigger: cron("0 9 * * 1-5") task: | Review all PRs opened since yesterday. Summarize findings and post to Slack. safety: max_tool_calls_per_goal: 50 require_user_confirm: - "git_push" - "send_email" - "payment_*"

几个值得注意的设计决策：

•声明式安全策略：不是在代码里写if-else判断"这个操作危不危险"，而是在manifest里声明哪些工具调用需要人工确认。这是对Agent失控风险的工程化管理。

•MCP作为统一协议：不管后面接的是GitHub还是你自己的内部API，对Agent来说都是"一个MCP endpoint"。这极大降低了工具集成的复杂度。

•Cron触发器：Agent不仅响应用户指令，还能按时间表自主执行。这就是"全天候"的工程实现。

Gemini 3.5 Flash：为Agent场景优化的模型

Spark跑的底座模型是今天同步发布的Gemini 3.5 Flash。这不是巧合——Google明确说这个模型是"为Agent任务优化的"。

关键指标：输出token速度是其他前沿模型的4倍。

为什么Agent场景对速度这么敏感？因为一个永续Agent的工作模式是这样的：

接收触发信号

↓

模型推理：分析上下文 + 决策下一步

↓

调用工具 → 等待响应

↓

模型推理：解析结果 + 决策下一步

↓

调用下一个工具…

↓ (循环多次)

完成目标 / 产出结果

一个Agent任务里，模型可能要推理5-20次（每次工具调用前后各一次决策）。如果每次推理要3秒，串行下来就是30-60秒的延迟。但如果推理速度提升4倍，每次0.75秒，总延迟就降到7-15秒。对于"帮我检查收件箱有没有紧急邮件"这种任务，15秒和60秒的体验天差地别。

这也是为什么Google选了Flash而不是Pro来跑Spark——Agent场景需要的是又快又便宜的推理，而不是单次最强的推理能力。一个7×24小时在线的Agent，每天可能要执行成百上千次推理，成本控制是生死线。

安全设计：Agent权限的边界在哪？

一个能读你邮件、改你日历、替你下单的Agent，安全设计不到位就是灾难。Spark在这块做了几层防护：

分级授权（Tiered Permissions）

不是一股脑把所有权限给Agent，而是分三档：

•自主执行：读取类操作（看邮件/查日历/搜Drive）不需要确认

•通知后执行：低风险写入（草拟邮件/创建文档）先做再告诉你

•必须确认：高风险操作（发送邮件/金额交易/删除数据）必须等用户点确认

每目标工具调用上限

Manifest里的max_tool_calls_per_goal: 50是一个硬限制。防止Agent进入死循环或者被恶意prompt注入后无限调用API。一个goal最多调50次工具，超了就停下来报告。

通配符拦截

require_user_confirm: ["payment_*"]——任何以"payment_"开头的工具调用都需要确认。这种设计很工程化：你不需要枚举每个支付接口的名字，用pattern matching覆盖整类操作。

但问题来了：当Agent被设计为"尽量不打扰用户"的时候，过多确认弹窗会破坏产品体验。这是一个本质矛盾——安全和便利的trade-off永远存在，Spark选择了把这个决策权交给用户自己配置。

对比：Spark vs Claude Code vs ChatGPT Operator

现在市面上有三种主流的Agent形态，它们代表了三种完全不同的技术路线：

Gemini Spark（Google）

运行模型：Cloud VM上的永续daemon

生命周期：天级（7×24运行）

交互方式：异步（做完了通知你）

能力边界：Google生态全打通 + MCP第三方

定价：$100/月 (AI Ultra订阅)

Claude Code（Anthropic）

运行模型：Terminal内的REPL Agent

生命周期：会话级（关terminal就没了）

交互方式：同步（实时pair programming）

能力边界：文件系统 + shell + MCP

定价：按token计费

ChatGPT Operator（OpenAI）

运行模型：浏览器沙箱内的操作者

生命周期：任务级（完成就结束）

交互方式：半同步（需要用户在旁监督）

能力边界：Web界面操作

定价：$200/月 (Pro订阅)

三者的核心差异在于Agent的"活跃时间窗口"：

• Operator只在你盯着的时候干活（像监工+实习生的关系）

• Claude Code在你开着Terminal的时候陪你干活（像pair partner）

• Spark在你睡觉的时候还在干活（像全职员工）

从工程复杂度来说，Spark是量级最高的。你要解决的问题包括但不限于：状态持久化、故障恢复、长上下文管理（跨天的对话记忆怎么压缩？）、资源调度（一台VM跑一个Agent还是多个Agent共享？）、安全隔离（Agent A的数据不能泄露给Agent B）……

Google选择了最难的路线。但它也有做这件事的独特优势：它拥有用户的Gmail、Calendar、Drive等核心数据源。Spark不需要像Operator那样通过笨拙的浏览器操作来获取信息——它能直接读API。这是基础设施级的护城河。

工程师视角：这意味着什么？

对于我们做应用开发的人来说，Spark的出现意味着几件事：

MCP成了事实标准

Anthropic发明了MCP，Google拥抱了MCP，OpenAI也在跟进。如果你在做任何2B的SaaS产品，现在就该考虑暴露一个MCP endpoint了。未来用户可能不再亲自打开你的App——他们的Spark会帮他们调你的API完成操作。

"永续Agent"的基础设施正在成熟

之前自己搭一个7×24的Agent，你需要操心进程管理、状态存储、故障恢复、安全隔离……现在Antigravity 2.0把这些全包了。就像Docker简化了部署一样，Antigravity可能会简化Agent的运维。

新的应用分发逻辑

App Store时代：用户安装App → 用户打开App → 用户操作App。

Agent时代：Agent发现服务 → Agent代替用户操作 → 用户看结果。

如果这个趋势成真，"用户获取"的逻辑会被彻底颠覆。你不再是在争夺用户的注意力，而是在争夺Agent的信任度——让Agent在需要"订酒店"的时候优先想到你的服务。

我的几个观察和疑问

最后说几个不那么乐观的思考：

成本问题：$100/月的定价，背后是一台一直在跑的Cloud VM + 每天成百上千次模型推理。Google目前肯定是亏钱推的。但用户一旦习惯了24小时在线的AI管家，想涨价就难了。这是个经典的"习惯绑定 → 变现"策略。

隐私风险：Spark要持续访问你的邮件、位置、浏览记录、购物习惯。这些数据集中在Google的一台VM上。一旦账号被攻破，损失不只是"读了你的邮件"——攻击者可以直接让Agent帮他转钱。攻击面比传统产品大了几个数量级。

"全天候"的paradox：Agent越智能、越自主，用户就越不关注它在做什么。但一旦它犯了错（比如误判一封促销邮件为"重要账单"并自动付款），用户可能很长时间都不会发现。"低打扰"和"安全监督"之间的张力是Spark最大的设计挑战。

Antigravity开放度：现在SDK刚发布，生态还是空的。Google能不能像当年Android那样吸引开发者来构建Agent生态？还是会像Google+一样雷声大雨点小？这取决于Antigravity的DX（开发者体验）和MCP生态的成熟速度。

写在最后

Gemini Spark让我想起2007年的iPhone。当时所有人都在做"更好的功能手机"，苹果直接把电脑塞进了口袋里。现在所有AI公司都在做"更好的聊天机器人"，Google直接给AI一台云服务器让它7×24自己转着。

这可能是AI产品从"工具"进化为"代理"的真正起点。不是那种PPT里的概念，而是有VM、有cron job、有状态持久化、有安全策略的工程现实。

当然，能不能成还得看落地效果。发布会Demo永远是完美的。但至少从架构设计上，Spark给出了一个"永续Agent应该长什么样"的高质量答案。

如果你也在做Agent相关的项目，建议现在就去看Antigravity 2.0的文档，特别是MCP Gateway那部分。不管你最终用不用Google的平台，那套声明式安全策略的设计思路都值得借鉴。

觉得有收获？转发给你的工程师朋友。下期见。

Gemini Spark深度拆解：Google给AI一台永不关机的云服务器

从Stateless到Stateful：一次范式级跃迁

架构拆解：Spark的三层设计

Gemini 3.5 Flash：为Agent场景优化的模型

安全设计：Agent权限的边界在哪？

对比：Spark vs Claude Code vs ChatGPT Operator

工程师视角：这意味着什么？

我的几个观察和疑问

写在最后

2025-2026年国内跨境电商TRO解冻机构：五大机构产品好的产品下架风险应对注意事项

英伟达的“围城”：云厂商自研芯片，攻到了哪一步？

最常见的漏洞有哪些？如何发现存在的漏洞呢

今年的就业环境，离谱！！！

Python,Rust开发氮化铝技术交流App

巴别鸟vs坚果云：企业云盘同步机制踩坑与实战配置