你的AI编程助手可以像真人一样点击、打字、截图了
不抢鼠标、不夺焦点,后台静默运行
Mac、Windows、Linux一套代码全搞定
🖥️ 先看痛点:AI“能动嘴”,但“动不了手”
现在的AI编程助手(Claude Code、Cursor、Codex)很聪明:能写代码、能读文档、能回答问题。
但它们有一个共同的“残疾”:
没法真正操作电脑。
你想让AI帮你:
- 打开浏览器,登录某个后台,点几个按钮导出数据
- 打开设计软件,调整几个参数,导出图片
- 打开系统设置,改几个配置项
- 在多个应用之间切换、复制粘贴、填写表单
现在的AI做不到。不是它“不想”,是它“没有手”。
核心矛盾:
AI有“大脑”(推理能力),但没有“手”(操作电脑的能力)。你想让AI帮你做“需要动手”的重复性工作,但现有的AI只能聊天和写代码。
✅ Cua 的解法
Cua 是一套让AI能够“使用电脑”的工具包。
一句话:给AI装上一双“虚拟手”
AI可以在后台操作鼠标、键盘、截图、运行命令、甚至操作手机模拟器
# 一行代码,AI就能控制一台“虚拟电脑”fromcuaimportSandboxasyncwithSandbox.ephemeral(Image.linux())assb:awaitsb.mouse.click(100,200)# 点击坐标awaitsb.keyboard.type("Hello from AI")# 打字screenshot=awaitsb.screenshot()# 截图result=awaitsb.shell.run("ls -la")# 执行命令你可以让AI自己:
- 打开浏览器 → 登录 → 点按钮 → 下载报表
- 打开设置 → 改配置 → 保存
- 在多个窗口间复制粘贴 → 整理数据
全程后台运行,不干扰你正在做的事情。
🔥 它解决了什么?
1. 传统自动化 vs Cua
| 传统自动化脚本(如PyAutoGUI) | Cua + AI | |
|---|---|---|
| 灵活性 | 脚本写死,页面一变就崩 | AI动态理解界面,自适应 |
| 维护成本 | 每个操作都要手写代码 | AI自己“看屏幕”决定点哪里 |
| 跨平台 | 每个系统重写一套 | 一套API跑Mac/Windows/Linux |
| 后台运行 | 难(通常要抢鼠标) | ✅ 原生支持后台 |
| 适用范围 | 固定流程 | 任意任务,AI自动推理 |
2. AI“有手” vs “没手”
| 场景 | 没有Cua | 有Cua |
|---|---|---|
| “帮我导出上个月的销售报表” | AI告诉你“步骤是1.打开后台2.点报表…” | AI自己打开、自己点、自己导出 |
| “把这个设计图导出成PNG” | 告诉你“按Ctrl+Shift+E…” | 自己打开软件、自己操作菜单、自己保存 |
| “每天凌晨备份这个文件夹” | 教你写cron脚本 | 自己设定时任务、自己执行 |
📦 四个核心组件
1. Cua Drivers —— 后台操作电脑(最实用)
让AI在后台驱动你的Mac或Windows电脑。
- 不抢鼠标、不夺焦点(你可以一边看网页,AI在后台帮你点另一个软件)
- 同一个CLI和MCP服务器,同时支持Mac和Windows
- Linux支持(预发布阶段)
安装(Mac/Linux):
/bin/bash-c"$(curl-fsSLhttps://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"安装(Windows PowerShell):
irmhttps://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.ps1|iex接入Claude Code(作为MCP服务器):
claude mcpadd--transportstdio cua-driver -- cua-driver mcp装完后,你的Claude Code就能控制电脑了。
💡MCP(模型上下文协议):一种让AI工具之间互相通信的标准。你可以理解为“AI之间的USB接口”——插上就能用。
2. Cua Sandbox —— 虚拟电脑沙箱
不想让AI操作你的真机?给它一台“虚拟电脑”。
- 支持Linux容器、Linux虚拟机、macOS、Windows、Android
- 云端运行(cua.ai提供)或本地运行(QEMU)
- 一套API,所有操作系统通用
fromcuaimportSandbox,Image# 启动一个Linux虚拟机,AI在里面干活asyncwithSandbox.ephemeral(Image.linux())assb:awaitsb.mouse.click(100,200)awaitsb.keyboard.type("Hello")适用场景:
- 测试不可信的AI行为(坏了就销毁,不影响真机)
- 批量并行运行多个AI任务(每个任务一个独立沙箱)
- 需要特定操作系统环境(比如测试Windows下的软件)
💡沙箱(Sandbox):一个隔离的运行环境,里面的操作不会影响到外面的真实电脑。就像“在玻璃盒子里做实验”,弄坏了关掉盒子就行。
3. Cua Bench —— 测试AI的“动手能力”
想评估哪个AI模型操作电脑最厉害?Cua Bench提供标准化测试:
- OSWorld:在真实操作系统里完成任务的基准测试
- ScreenSpot:屏幕理解能力测试
- Windows Arena:Windows环境专用测试
- 支持自定义任务
# 运行基准测试cb run dataset datasets/cua-bench-basic--agentcua-agent --max-parallel4💡基准测试(Benchmark):就像“考试”——给AI一套标准题,看它能得多少分。分数高的说明“动手能力”强。
4. Lume —— 苹果芯片上的macOS虚拟机
专门给Apple Silicon(M1-M4芯片)用的虚拟机管理工具。
- 基于苹果官方的Virtualization.Framework
- 接近原生的性能
- 一键创建、运行macOS/Linux虚拟机
# 安装Lume/bin/bash-c"$(curl-fsSLhttps://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"# 下载并启动一个macOS虚拟机lume run macos-sequoia-vanilla:latest适用场景:
- 在Mac上测试Mac软件,但不想污染主系统
- CI/CD流水线里跑macOS环境
- 开发需要多版本macOS测试的应用
🎯 谁最适合用?
| 人群 | 为什么适合 |
|---|---|
| AI编程助手用户(Claude Code/Cursor/Codex) | 让你的AI不仅能写代码,还能操作电脑——开浏览器、点按钮、填表单 |
| 自动化测试工程师 | AI可以“看着屏幕”做端到端测试,比传统脚本更智能、更抗界面变化 |
| 运维/SRE | AI可以登录服务器、执行命令、检查日志、处理告警(全程自动) |
| RPA(机器人流程自动化)从业者 | 传统RPA脚本写死流程,AI版RPA能自己“看”屏幕做决策 |
| AI研究员/开发者 | 需要测试和训练“计算机使用Agent”的能力 |
| 喜欢折腾的开发者 | 给Claude Code装上“手”,看它能帮你做什么神奇的事 |
一个典型的“省时间”场景
问题:你每天要登录公司后台,点“报表”→“导出”→“上个月”→“CSV格式”,然后下载文件,重命名,放到共享文件夹。
现在:你把Claude Code调出来,说:
“帮我把上个月的用户活跃度报表导出来,放到团队共享盘里”
Cua做了什么:
- AI打开浏览器
- 登录后台(你可能要提前给它cookie或账号)
- 依次点击报表→导出→选择时间范围
- 下载文件
- 重命名
- 移动到共享文件夹
全程你在喝咖啡。
🔐 安全与隐私
后台运行,不抢控制权
Cua Drivers在后台操作时,不会抢走你的鼠标和键盘焦点。你可以一边写代码,一边让AI在后台帮你点另一个软件。
沙箱隔离
用Cua Sandbox,AI的活动完全隔离在虚拟机/容器里。它破坏不了你的主系统。
数据不出本地
所有操作可以完全在本地运行(用QEMU或Lume),不需要把任何数据传到云端。
🚀 快速上手
让Claude Code获得“动手能力”(5分钟)
# 1. 安装Cua Driver/bin/bash-c"$(curl-fsSLhttps://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"# 2. 接入Claude Code作为MCP服务器claude mcpadd--transportstdio cua-driver -- cua-driver mcp# 3. 重启Claude Code,然后对它说:# “帮我打开浏览器,访问 google.com,搜索‘天气’”用Python直接调用
pipinstallcuafromcuaimportSandbox,ImageasyncwithSandbox.ephemeral(Image.linux())assb:# AI点击坐标(100,200)awaitsb.mouse.click(100,200)# 打字awaitsb.keyboard.type("Hello from Cua!")# 截图img=awaitsb.screenshot()# 执行命令result=awaitsb.shell.run("ls -la")print(result.output)📊 支持矩阵
| 环境 | Linux容器 | Linux虚拟机 | macOS | Windows | Android |
|---|---|---|---|---|---|
| 云端(cua.ai) | ✅ | ✅ | ✅ | ✅ | ✅ |
| 本地(QEMU) | ✅ | ✅ | ✅ | ✅ | ✅ |
| Lume(Apple Silicon) | ✅ | ✅ | ✅ | ❌ | ❌ |
| Cua Drivers(真机后台) | 🔜 | 🔜 | ✅ | ✅ | ❌ |
✅ 总结
| 层次 | 核心内容 |
|---|---|
| 解决了什么 | AI能“说话”但不能“动手”的矛盾。Cua给AI装上了鼠标、键盘和屏幕 |
| 核心组件 | ①Cua Drivers(后台操作真机)②Cua Sandbox(虚拟沙箱)③Cua Bench(能力测试)④Lume(Mac虚拟机) |
| 怎么用 | Claude Code用户:装Driver,加MCP,说人话;Python开发者:pip install cua |
| 谁适合 | AI编程助手用户、自动化测试、运维、RPA从业者、AI研究员 |
📦 立即开始
# 最快体验:给Claude Code装“手”/bin/bash-c"$(curl-fsSLhttps://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"claude mcpadd--transportstdio cua-driver -- cua-driver mcp# Python开发者pipinstallcua🔗官网:cua.ai
📖文档:cua.ai/docs
💬Discord:discord.gg/mVnXXpdE85
🐙GitHub:github.com/trycua/cua
📄许可证:MIT
让AI不再只是“动嘴”,让它真正“动手”。