AI 能自己开电脑干活了？这个开源项目已经把基础设施搭好了。-编程实验室

摘要：CUA 是一个专为 Computer-Use Agent 设计的开源基础设施，支持在 macOS / Linux / Windows / Android 沙箱中让 AI 操控真实桌面。包含 Sandbox SDK、后台驱动、Agent 框架、基准评测和 macOS 虚拟化五大模块，已获 17k+ Star，MIT 许可，值得每个做 Agent 开发的人认真看一眼。

你有没有想过，让 AI 帮你在电脑上干活——不是生成文本，而是真的打开浏览器、点击按钮、填写表单、提交代码？

这件事听起来像科幻，但现在已经有人把基础设施搭好了。

GitHub 上有个叫CUA（Computer-Use Agents）的开源项目，17,300+ Star，70 位贡献者，500+ 版本迭代，MIT 许可。它做的事情只有一件：让 AI Agent 真正拥有一台可以操控的电脑。

背景：这个方向为什么现在热起来了？

2024 年 Anthropic 发布 Computer Use 功能之后，"AI 操控桌面"一下子从实验室概念变成了开发者能摸到的东西。但大多数人很快遇到同一批问题：

怎么给 Agent 搭一个安全的隔离沙箱，不污染本机？
跑在 macOS 上和跑在 Linux 上，API 能统一吗？
怎么评测 Agent 的真实任务完成率？
怎么把会话录下来，后续做训练数据？

这些问题，CUA 打包解决了。

🏗 CUA 是什么

简单说，CUA 是一套为 Computer-Use Agent 设计的开源基础设施，核心包含五个模块：

模块	作用
Cua Sandbox	多 OS 隔离沙箱 + 统一操控 SDK
Cua Driver	macOS 后台无感驱动
cua-agent	接入主流模型的 Agent 框架
Cua-Bench	真实桌面任务评测 + RL 环境
Lume	Apple Silicon 上的 macOS 虚拟化

这五个模块加起来，覆盖了从"搭环境"到"评测训练"的整条链路。下面逐个拆开来看。

🖥 Cua Sandbox：一个 API，跑遍所有 OS

Cua Sandbox 的设计思路很干净——同一套 Python API，不管是 Linux 容器、macOS VM 还是 Windows 沙箱，调用方式完全一样：

fromcuaimportSandbox, ImageasyncwithSandbox.ephemeral(Image.linux())assb: result =awaitsb.shell.run("echo hello") screenshot =awaitsb.screenshot()awaitsb.mouse.click(100,200)awaitsb.keyboard.type("Hello from Cua!")awaitsb.mobile.gesture((100,500), (100,200))# 多点触控也支持

换成 macOS 只需要改一行：

asyncwithSandbox.ephemeral(Image.macos())assb: ...

这种抽象做得很彻底。本地用 QEMU 或 Lume 跑 VM，云端走 cua.ai，切换时代码完全不用动。

热启动时间不到 1 秒。对于需要并行跑多个 Agent 任务的场景，这个数字很重要。云端方案还支持环境快照和一键 fork——把一个配置好的沙箱瞬间复制成 N 个并行实例，适合大规模评测。

🎯 Cua Driver：不抢光标的后台操控

这是我觉得最实用的一个模块。

普通的桌面自动化工具有个老毛病：Agent 在操作时，你的鼠标光标会被抢走，什么都干不了。Cua Driver 解决了这个：Agent 在后台静默运行，不抢光标、不切换焦点、不打断你当前的工作。

更关键的是，它能处理 Chromium 内容和 Canvas 类应用（Blender、Figma、DAW、游戏引擎等）。这类界面走的不是 macOS 系统无障碍接口（AX），传统工具通常对付不了。

安装只需要一行：

/bin/bash -c"$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"

它还内置了MCP server，可以直接接入 Claude Code 和 Cursor，让这些编程 Agent 多一双"眼睛和手"。每次会话自动录制成可回放的轨迹，方便后续标注和训练。

🤖 Agent Framework：主流模型全支持

CUA 的 Agent 框架（cua-agent）支持三种 loop 模式：

Agent Loop	支持模型	特点
`AgentLoop.OPENAI`	computer_use_preview	OpenAI Operator 原生
`AgentLoop.ANTHROPIC`	Claude 4.7 / 4.7 Sonnet	Anthropic Computer Use
`AgentLoop.OMNI`	GPT-4o、Gemini、Qwen、Ollama 本地模型等	基于 OmniParser，支持任意 VLM

OMNI 模式值得单独说一下。它用 OmniParser 做 UI 元素识别和 Set-of-Marks 像素级标注，把视觉定位和推理拆开，理论上用 Ollama 跑本地模型也能驱动桌面操作。对于不想把截图数据发到云端的场景，这个方案很有价值。

装起来很简单：

pip install"cua-agent[anthropic]"# 或者pip install"cua-agent[omni]"# 包含 Ollama 本地模型支持

跑一个完整的 Agent 任务大概是这个样子：

fromcuaimportSandbox, Imagefromcua.agentimportComputerAgent, AgentLoop, LLM, LLMProviderasyncwithSandbox.ephemeral(Image.macos())assb: agent = ComputerAgent( computer=sb, loop=AgentLoop.ANTHROPIC, model=LLM(provider=LLMProvider.ANTHROPIC) )awaitagent.run("在 GitHub 上搜索 trycua/cua，打开最新的 Issue 并读取内容")

📊 Cua-Bench：在真实桌面上评测 Agent

光搭环境不够，还得知道 Agent 到底表现如何。Cua-Bench 支持在 OSWorld、ScreenSpot、Windows Arena 等公开数据集上跑评测，也支持自定义任务集：

pip install cua-bench cb run dataset datasets/cua-bench-basic --agent cua-agent --max-parallel 4

评测完可以导出轨迹，直接接入训练 pipeline，形成"收集数据 → 标注 → 训练 → 再评测"的闭环。对做 Computer-Use 研究的团队来说，这条链路是真正有价值的地方。

官方也在搭建评测注册表（cuabench.ai/registry），不同模型在相同任务集上的成绩可以横向对比。

🍎 Lume：在 Apple Silicon 上跑 macOS VM

最后说一个隐藏亮点——Lume。

它基于 Apple 官方的 Virtualization.Framework，在 M 系列芯片上创建 macOS 和 Linux VM，性能接近原生。启动一个 macOS Sequoia 就一行：

# 安装 Lume/bin/bash -c"$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"# 拉取并启动lume run macos-sequoia-vanilla:latest

对于需要在真实 macOS 环境里测试 Agent 行为（比如 Xcode 构建、原生 macOS 应用操控）的场景，Lume 是目前方案里最干净的选择。它和 Cua Sandbox 完全集成，共用同一套 SDK。

📈 一些数据

GitHub Stars：17,300+（2025 年 1 月上线，约一年半时间）
Forks：1,083
贡献者：70 人
发布版本：500+
许可证：MIT（无商用限制）
社区规模：50,000+ 工程师使用
知名用户：Hugging Face、Meta、Apple、NVIDIA、Duolingo 等公司工程师

17k Star 对一个垂直基础设施项目来说是相当扎实的数字。从 Star 增长趋势来看，2025 年下半年增速明显加快，和整个 Computer-Use Agent 方向的热度正相关。

💬 我的看法

CUA 做的事情，准确说是把 Computer-Use Agent 的"水电煤"拉通了——沙箱、驱动、评测、训练数据，每个环节都有对应的工具，而且 API 设计相对克制，没有过度封装。

有几点值得注意：

强项：macOS + Apple Silicon 生态。Lume 和 Cua Driver 都在这里做到了深度集成，本地跑 Agent 体验比较完整。

相对弱的地方：Windows 本地端支持还在完善中，目前主要靠云端方案覆盖。如果主力开发环境是 Windows，需要多看一下文档再决定。

适合谁用：

在 Mac 上做 Agent 开发，想要一个标准化的沙箱环境
做 Computer-Use 相关研究，需要评测基准和轨迹数据
想把 Claude / GPT 接入桌面操控，但不想自己搭底层

整体来说，这是目前 Computer-Use Agent 方向做得比较完整的开源框架，值得认真研究。

开源地址：https://github.com/trycua/cua

官网文档：https://cua.ai/docs

你在做 AI Agent 相关的项目吗？有尝试过让模型直接操控桌面吗？欢迎评论区聊聊。

我是顾北，关注我，获取更多好玩有趣的开源仓库！

谢谢你阅读我的文章~

我们下期再见！

PS：本文部分内容由AI辅助创作

AI 能自己开电脑干活了？这个开源项目已经把基础设施搭好了。

背景：这个方向为什么现在热起来了？

🏗 CUA 是什么

🖥 Cua Sandbox：一个 API，跑遍所有 OS

🎯 Cua Driver：不抢光标的后台操控

🤖 Agent Framework：主流模型全支持

📊 Cua-Bench：在真实桌面上评测 Agent

🍎 Lume：在 Apple Silicon 上跑 macOS VM

📈 一些数据

💬 我的看法

深入解析MapleStory游戏资源编辑：Harepacker-resurrected架构设计与高级应用

多模态 AI Agent Harness Engineering：能看、能听、能思考的下一代智能体

可解释性全球野火预测模型

OpenAI API调用避坑指南：除了超时，还有哪些常见错误及解法？

给硬件小白的PCIE扫盲课：从显卡插槽到配置空间，一次讲清楚

别再乱改注册表了！用这个脚本一键锁定Windows桌面壁纸（附恢复方法）