news 2026/5/30 18:16:21

AI 能自己开电脑干活了?这个开源项目已经把基础设施搭好了。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI 能自己开电脑干活了?这个开源项目已经把基础设施搭好了。

摘要:CUA 是一个专为 Computer-Use Agent 设计的开源基础设施,支持在 macOS / Linux / Windows / Android 沙箱中让 AI 操控真实桌面。包含 Sandbox SDK、后台驱动、Agent 框架、基准评测和 macOS 虚拟化五大模块,已获 17k+ Star,MIT 许可,值得每个做 Agent 开发的人认真看一眼。


你有没有想过,让 AI 帮你在电脑上干活——不是生成文本,而是真的打开浏览器、点击按钮、填写表单、提交代码?

这件事听起来像科幻,但现在已经有人把基础设施搭好了。

GitHub 上有个叫CUA(Computer-Use Agents)的开源项目,17,300+ Star,70 位贡献者,500+ 版本迭代,MIT 许可。它做的事情只有一件:让 AI Agent 真正拥有一台可以操控的电脑


背景:这个方向为什么现在热起来了?

2024 年 Anthropic 发布 Computer Use 功能之后,"AI 操控桌面"一下子从实验室概念变成了开发者能摸到的东西。但大多数人很快遇到同一批问题:

  • 怎么给 Agent 搭一个安全的隔离沙箱,不污染本机?

  • 跑在 macOS 上和跑在 Linux 上,API 能统一吗?

  • 怎么评测 Agent 的真实任务完成率?

  • 怎么把会话录下来,后续做训练数据?

这些问题,CUA 打包解决了。


🏗 CUA 是什么

简单说,CUA 是一套为 Computer-Use Agent 设计的开源基础设施,核心包含五个模块:

模块

作用

Cua Sandbox

多 OS 隔离沙箱 + 统一操控 SDK

Cua Driver

macOS 后台无感驱动

cua-agent

接入主流模型的 Agent 框架

Cua-Bench

真实桌面任务评测 + RL 环境

Lume

Apple Silicon 上的 macOS 虚拟化

这五个模块加起来,覆盖了从"搭环境"到"评测训练"的整条链路。下面逐个拆开来看。


🖥 Cua Sandbox:一个 API,跑遍所有 OS

Cua Sandbox 的设计思路很干净——同一套 Python API,不管是 Linux 容器、macOS VM 还是 Windows 沙箱,调用方式完全一样:

fromcuaimportSandbox, ImageasyncwithSandbox.ephemeral(Image.linux())assb: result =awaitsb.shell.run("echo hello") screenshot =awaitsb.screenshot()awaitsb.mouse.click(100,200)awaitsb.keyboard.type("Hello from Cua!")awaitsb.mobile.gesture((100,500), (100,200))# 多点触控也支持

换成 macOS 只需要改一行:

asyncwithSandbox.ephemeral(Image.macos())assb: ...

这种抽象做得很彻底。本地用 QEMU 或 Lume 跑 VM,云端走 cua.ai,切换时代码完全不用动。

热启动时间不到 1 秒。对于需要并行跑多个 Agent 任务的场景,这个数字很重要。云端方案还支持环境快照和一键 fork——把一个配置好的沙箱瞬间复制成 N 个并行实例,适合大规模评测。


🎯 Cua Driver:不抢光标的后台操控

这是我觉得最实用的一个模块。

普通的桌面自动化工具有个老毛病:Agent 在操作时,你的鼠标光标会被抢走,什么都干不了。Cua Driver 解决了这个:Agent 在后台静默运行,不抢光标、不切换焦点、不打断你当前的工作

更关键的是,它能处理 Chromium 内容和 Canvas 类应用(Blender、Figma、DAW、游戏引擎等)。这类界面走的不是 macOS 系统无障碍接口(AX),传统工具通常对付不了。

安装只需要一行:

/bin/bash -c"$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"

它还内置了MCP server,可以直接接入 Claude Code 和 Cursor,让这些编程 Agent 多一双"眼睛和手"。每次会话自动录制成可回放的轨迹,方便后续标注和训练。


🤖 Agent Framework:主流模型全支持

CUA 的 Agent 框架(cua-agent)支持三种 loop 模式:

Agent Loop

支持模型

特点

AgentLoop.OPENAI

computer_use_preview

OpenAI Operator 原生

AgentLoop.ANTHROPIC

Claude 4.7 / 4.7 Sonnet

Anthropic Computer Use

AgentLoop.OMNI

GPT-4o、Gemini、Qwen、Ollama 本地模型等

基于 OmniParser,支持任意 VLM

OMNI 模式值得单独说一下。它用 OmniParser 做 UI 元素识别和 Set-of-Marks 像素级标注,把视觉定位和推理拆开,理论上用 Ollama 跑本地模型也能驱动桌面操作。对于不想把截图数据发到云端的场景,这个方案很有价值。

装起来很简单:

pip install"cua-agent[anthropic]"# 或者pip install"cua-agent[omni]"# 包含 Ollama 本地模型支持

跑一个完整的 Agent 任务大概是这个样子:

fromcuaimportSandbox, Imagefromcua.agentimportComputerAgent, AgentLoop, LLM, LLMProviderasyncwithSandbox.ephemeral(Image.macos())assb: agent = ComputerAgent( computer=sb, loop=AgentLoop.ANTHROPIC, model=LLM(provider=LLMProvider.ANTHROPIC) )awaitagent.run("在 GitHub 上搜索 trycua/cua,打开最新的 Issue 并读取内容")

📊 Cua-Bench:在真实桌面上评测 Agent

光搭环境不够,还得知道 Agent 到底表现如何。Cua-Bench 支持在 OSWorld、ScreenSpot、Windows Arena 等公开数据集上跑评测,也支持自定义任务集:

pip install cua-bench cb run dataset datasets/cua-bench-basic --agent cua-agent --max-parallel 4

评测完可以导出轨迹,直接接入训练 pipeline,形成"收集数据 → 标注 → 训练 → 再评测"的闭环。对做 Computer-Use 研究的团队来说,这条链路是真正有价值的地方。

官方也在搭建评测注册表(cuabench.ai/registry),不同模型在相同任务集上的成绩可以横向对比。


🍎 Lume:在 Apple Silicon 上跑 macOS VM

最后说一个隐藏亮点——Lume

它基于 Apple 官方的 Virtualization.Framework,在 M 系列芯片上创建 macOS 和 Linux VM,性能接近原生。启动一个 macOS Sequoia 就一行:

# 安装 Lume/bin/bash -c"$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"# 拉取并启动lume run macos-sequoia-vanilla:latest

对于需要在真实 macOS 环境里测试 Agent 行为(比如 Xcode 构建、原生 macOS 应用操控)的场景,Lume 是目前方案里最干净的选择。它和 Cua Sandbox 完全集成,共用同一套 SDK。


📈 一些数据

  • GitHub Stars:17,300+(2025 年 1 月上线,约一年半时间)

  • Forks:1,083

  • 贡献者:70 人

  • 发布版本:500+

  • 许可证:MIT(无商用限制)

  • 社区规模:50,000+ 工程师使用

  • 知名用户:Hugging Face、Meta、Apple、NVIDIA、Duolingo 等公司工程师

17k Star 对一个垂直基础设施项目来说是相当扎实的数字。从 Star 增长趋势来看,2025 年下半年增速明显加快,和整个 Computer-Use Agent 方向的热度正相关。


💬 我的看法

CUA 做的事情,准确说是把 Computer-Use Agent 的"水电煤"拉通了——沙箱、驱动、评测、训练数据,每个环节都有对应的工具,而且 API 设计相对克制,没有过度封装。

有几点值得注意:

强项:macOS + Apple Silicon 生态。Lume 和 Cua Driver 都在这里做到了深度集成,本地跑 Agent 体验比较完整。

相对弱的地方:Windows 本地端支持还在完善中,目前主要靠云端方案覆盖。如果主力开发环境是 Windows,需要多看一下文档再决定。

适合谁用

  • 在 Mac 上做 Agent 开发,想要一个标准化的沙箱环境

  • 做 Computer-Use 相关研究,需要评测基准和轨迹数据

  • 想把 Claude / GPT 接入桌面操控,但不想自己搭底层

整体来说,这是目前 Computer-Use Agent 方向做得比较完整的开源框架,值得认真研究。

开源地址:https://github.com/trycua/cua

官网文档:https://cua.ai/docs


你在做 AI Agent 相关的项目吗?有尝试过让模型直接操控桌面吗?欢迎评论区聊聊。

我是顾北,关注我,获取更多好玩有趣的开源仓库!

谢谢你阅读我的文章~

我们下期再见!

PS:本文部分内容由AI辅助创作

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 18:14:21

可解释性全球野火预测模型

Explainable global wildfire prediction model using graph neural networks 一、研究背景与核心问题 1.1 研究动机 全球野火预测面临两大挑战: 数据限制:基于观测的火烧面积记录仅从1990年代末开始,时间跨度短,且需要复杂的时空…

作者头像 李华
网站建设 2026/5/30 18:13:08

OpenAI API调用避坑指南:除了超时,还有哪些常见错误及解法?

OpenAI API调用避坑指南:从超时到参数错误的系统性解决方案 当你第一次尝试调用OpenAI API时,可能会遇到各种意料之外的问题。从网络连接到参数配置,每个环节都可能成为阻碍你顺利获取响应的绊脚石。本文将带你深入探索API调用过程中的常见陷…

作者头像 李华
网站建设 2026/5/30 18:12:31

给硬件小白的PCIE扫盲课:从显卡插槽到配置空间,一次讲清楚

给硬件小白的PCIE扫盲课:从显卡插槽到配置空间,一次讲清楚 当你拆开电脑机箱,最显眼的可能就是那个长长的黑色插槽——显卡的家。这个看似简单的插槽背后,隐藏着一套精密的通信协议:PCI Express(简称PCIe&a…

作者头像 李华
网站建设 2026/5/30 18:12:08

别再乱改注册表了!用这个脚本一键锁定Windows桌面壁纸(附恢复方法)

高效锁定Windows桌面壁纸的自动化脚本方案对于需要批量管理多台Windows设备的企业IT管理员或技术支持人员来说,统一桌面壁纸不仅是品牌形象展示的一部分,更是安全合规管理的重要环节。传统手动修改注册表的方式不仅效率低下,还存在操作风险。…

作者头像 李华