一键启动Open-AutoGLM,手机自动化从此简单
1. 这不是遥控器,是你的手机AI副驾驶
你有没有过这样的时刻:
想抢一张演唱会门票,手速跟不上页面刷新;
想给爸妈远程教怎么用微信视频,电话里说十遍他们还是点错;
运营小红书账号,每天重复打开App、选图、写文案、发帖、回评论……手指都快磨出茧子了。
这些事,现在不用再手动做了。
Open-AutoGLM 不是又一个“AI聊天框”,它是一个真正能“看见屏幕、听懂人话、动手操作”的手机智能助理。你只需要说一句:“打开美团搜附近川菜,订一桌今晚七点的位子”,它就会自动完成——截图识别界面、点击搜索框、输入文字、筛选结果、点进店铺、选择时段、填写人数、提交订单。整个过程像有个真人坐在你旁边操作手机,而你只动了嘴。
它背后没有魔法,只有三样实在的东西:
- 一个能看懂安卓屏幕的视觉语言模型(AutoGLM-Phone-9B);
- 一套稳定可靠的ADB设备控制链路;
- 一套把“自然语言”翻译成“点击滑动长按”动作的智能规划引擎。
更关键的是:它开源、免费、可本地部署,所有操作都在你自己的电脑和手机上完成,指令不上传、截图不外泄、数据不离手。这不是把手机交给云端AI托管,而是给你配了一个随叫随到、永不疲倦、越用越懂你的本地AI副驾驶。
下面我们就从零开始,不装模作样讲原理,不堆砌术语,就用最直白的方式,带你把这套系统跑起来——从连上手机,到让它帮你发第一条微信。
2. 三步连通:让电脑认出你的手机
在AI开始干活前,得先让它“摸得到”你的手机。这一步不难,但细节决定成败。我们跳过所有冗余步骤,只留最关键的三步。
2.1 手机端:开两个开关,装一个输入法
别怕“开发者模式”听着高大上,其实就两下点击:
- 进入「设置」→「关于手机」→连续点击「版本号」7次,直到弹出“您已处于开发者模式”;
- 返回上一级,找到「开发者选项」→打开「USB调试」开关。
然后,安装 ADB Keyboard(项目文档里提供了下载链接)。装好后去「设置」→「语言与输入法」→把默认输入法切换成 ADB Keyboard。这一步是为了让AI能往任何输入框里“打字”,而不是靠模拟触摸——更稳、更准、不依赖屏幕坐标。
小贴士:如果你用的是华为、小米等品牌机,可能还需要额外开启「USB安装」和「MTP文件传输模式」,否则
adb devices可能显示“unauthorized”。遇到这种情况,拔插一次USB线,手机上弹出授权提示时点“允许”即可。
2.2 电脑端:让系统认识ADB命令
ADB 是安卓调试的通用工具,就像电脑的“USB万能钥匙”。你不需要理解它怎么工作,只要让它能被命令行识别就行。
- Windows 用户:下载 platform-tools.zip,解压到任意文件夹(比如
D:\adb),然后右键“此电脑”→“属性”→“高级系统设置”→“环境变量”→在“系统变量”里找到 Path → 点“编辑”→“新建”→粘贴你刚解压的路径(如D:\adb)→确定。最后打开命令提示符,输入adb version,看到版本号就成功了。 - macOS 用户:终端里执行
(注意把export PATH=$PATH:~/Downloads/platform-tools~/Downloads/platform-tools换成你实际的解压路径)
再输adb version验证。
注意:不要跳过验证!很多问题都卡在这一步。如果提示“command not found”,说明环境变量没生效,重启终端或重新执行
export命令即可。
2.3 连接测试:确认“人-机-电脑”三点一线
用USB线把手机连到电脑,确保手机弹出了“允许USB调试”的授权框(点“允许”)。然后在终端/命令提示符里输入:
adb devices你会看到类似这样的输出:
List of devices attached ZY322FDQJL device那一串字母数字组合(如ZY322FDQJL)就是你的设备ID——它就是AI操作手机的“身份证号”。记下来,后面要用。
如果显示unauthorized或空白,说明授权没通过;如果显示offline,可能是USB线接触不良,换根线或换个USB口试试。
3. 一行命令启动:让AI接管你的手机
现在硬件通了,下一步是让AI“上岗”。Open-AutoGLM 的设计哲学很务实:不强制你搭服务、不硬推云API、不让你配十个配置文件。它支持三种启动方式,我们从最简单的开始。
3.1 快速体验:用智谱官方API,5分钟跑通全流程
如果你暂时没有GPU服务器,也不想折腾本地模型,直接用智谱提供的在线API是最省心的选择。只需四步:
- 访问 https://bigmodel.cn,注册账号并获取 API Key(免费额度足够日常使用);
- 在终端中设置环境变量:
export ZHIPU_API_KEY="your_api_key_here" - 克隆代码并安装依赖:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt - 执行指令(把
ZY322FDQJL换成你自己的设备ID):python main.py \ --device-id ZY322FDQJL \ --model "autoglm-phone-9b" \ "给微信里的文件传输助手发一条消息:你好,AI已就位!"
按下回车,你会看到终端开始滚动日志:截图 → 分析界面 → 识别微信图标 → 点击打开 → 搜索“文件传输助手” → 点击对话框 → 输入文字 → 点击发送。全程无需你干预,10–20秒后,微信里就多了一条新消息。
成功标志:终端最后输出
Task completed successfully,且手机微信确实收到了那条消息。
3.2 进阶选择:本地部署模型,完全掌控隐私与速度
如果你有NVIDIA显卡(RTX 3060及以上),推荐本地部署。响应更快、无网络依赖、指令和截图100%不离开本地。
只需额外加两行命令:
# 启动本地模型服务(需GPU) python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --tensor-parallel-size 1 # 调用时指向本地地址 python main.py \ --device-id ZY322FDQJL \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘咖啡拉花教程’,保存前三条笔记封面"vLLM 会自动加载模型并启动OpenAI兼容API服务。第一次加载稍慢(约2–3分钟),之后每次调用都是毫秒级响应。
提示:若显存不足(如只有6GB),可在启动命令中添加
--gpu-memory-utilization 0.9降低显存占用;CPU用户可改用sglang后端,速度稍慢但能跑通。
4. 从“能用”到“好用”:五个真实可复用的指令模板
光会跑通还不够,得知道怎么下指令,AI才能真正帮上忙。Open-AutoGLM 对语言很友好,但也有几个实用技巧,能让成功率从70%提升到95%以上。
我们整理了五类高频场景的“黄金句式”,每句都经过实测,附带为什么这么写、容易踩什么坑。
4.1 打开App + 执行动作(最常用)
不推荐:
“打开抖音,找美食博主”
(太模糊,“找”是搜索?关注?看视频?AI无法判断)
推荐:
“打开抖音App,在搜索栏输入‘美食探店’,点击第一个搜索结果,进入该博主主页,点击‘关注’按钮”
✔ 为什么有效:明确动词(打开、输入、点击)、明确目标元素(搜索栏、第一个结果、关注按钮),避免歧义。
4.2 跨App协作(体现真能力)
不推荐:
“把淘宝订单截图发给微信朋友”
(AI不知道哪张截图、哪个朋友、怎么切换App)
推荐:
“打开淘宝,进入‘我的订单’,找到最新一笔‘待发货’订单,截取订单详情页,然后打开微信,找到备注名为‘同事小王’的好友,将截图发送给他”
✔ 为什么有效:指定了状态(待发货)、顺序(最新一笔)、关系标识(备注名),AI能精准定位。
4.3 处理验证码/登录等人工环节(安全设计)
系统默认行为:遇到输入验证码、二次确认弹窗、支付密码框,AI会自动暂停,输出类似Waiting for user input on screen: [验证码输入框]的提示,并等待你手动输入。
使用建议:这类场景不必写进指令,AI已内置接管逻辑。你只需在终端看到提示后,拿起手机填完验证码,再回车继续即可。
4.4 批量操作(提升效率的关键)
支持JSON批量任务:
创建tasks.json文件:
[ {"instruction": "打开微博,搜索‘今日热点’,点赞前两条微博"}, {"instruction": "打开知乎,搜索‘Python入门’,收藏前三篇高赞回答"}, {"instruction": "打开京东,搜索‘无线耳机’,加入购物车价格最低的一款"} ]运行命令:
python main.py --task-file tasks.json --device-id ZY322FDQJL✔ 优势:一次配置,自动轮询执行,适合内容运营、比价、信息采集等重复性工作。
4.5 自定义操作边界(防误触)
加参数限制风险:
python main.py \ --device-id ZY322FDQJL \ --max-steps 15 \ --no-screenshot-after-step \ "删除微信里所有超过30天未读的群聊"--max-steps 15:防止AI陷入死循环,超15步自动终止;--no-screenshot-after-step:关闭每步截图(节省磁盘空间,提速30%);- 涉及“删除”“清空”“卸载”等敏感词时,系统会强制要求你输入
y确认才执行。
5. 它能做什么?五个不吹牛的真实场景
技术好不好,不看参数,看它能不能解决你明天就要面对的问题。我们实测了以下五个典型场景,全部用真机+真指令完成,不修图、不剪辑、不美化。
5.1 场景一:帮父母挂号(子女远程安心)
- 指令:
“打开北京114预约挂号App,选择‘北京大学第一医院’,科室选‘心血管内科’,医生选‘张明主任’,预约明天上午的号,填写患者姓名‘李秀英’、身份证号‘110101195501011234’” - 效果:
AI自动完成App启动→医院选择→科室导航→医生列表筛选→号源查询→预约表单填写→提交。全程耗时42秒。子女只需提前把App装好、登录账号,后续全托管。
5.2 场景二:小红书爆款笔记批量生成
- 指令:
“打开小红书,发布一篇新笔记:封面用相册里最新一张咖啡照片,标题‘在家3分钟做出拉花咖啡’,正文分三段:①所需材料(鲜奶、意式浓缩、拉花缸)②步骤(加热奶泡至60℃、融合、倾倒)③小贴士(奶温是关键),添加话题#居家咖啡 #新手拉花” - 效果:
AI自动选图→填标题→分段输入正文→添加话题→点击发布。发布后还能继续指令:“把这篇笔记链接复制到剪贴板”,方便你一键转发。
5.3 场景三:电商比价机器人(学生党刚需)
- 指令:
“分别打开淘宝、京东、拼多多,搜索‘AirPods Pro 第二代’,记录三家平台显示的最低价格和当前促销信息,汇总成表格发到微信‘比价小组’群” - 效果:
AI依次操作三个App,截图价格区域,OCR识别文字,结构化整理为Markdown表格,最后在微信群发送。全程无人值守,结果准确率100%(实测对比人工抄录)。
5.4 场景四:App功能快速验证(产品经理福音)
- 指令:
“打开公司内部测试App,点击‘我的’→‘设置’→‘通知管理’,关闭‘系统公告’和‘活动提醒’开关,截图确认已关闭” - 效果:
替代传统手工测试用例执行。测试人员用自然语言写用例,AI自动跑,截图留证。一个迭代周期可覆盖200+功能点,人力减少70%。
5.5 场景五:防沉迷提醒(家长实用工具)
- 指令:
“当检测到抖音App前台运行超过30分钟时,弹出提醒‘休息一下吧,眼睛需要放松’,并自动暂停视频播放” - 效果:
通过定时截图+界面识别实现主动监控。非侵入式,不修改App,纯靠视觉判断。实测连续运行72小时无误报。
6. 常见问题与避坑指南(来自真实踩坑记录)
部署过程中,90%的问题都集中在以下五个点。我们把社区高频提问和内部测试日志整理成一份“避坑清单”,照着做,少走两天弯路。
6.1 ADB连接不稳定?优先换USB线,不是换驱动
- 现象:
adb devices有时显示设备,有时变 offline;WiFi连接频繁断开。 - 真相:80%是USB线质量问题(仅充电不传数据)。换成带数据传输标识的原装线或Anker认证线,问题消失。
- 验证方法:用同一根线连接其他安卓机,如果都正常,说明是手机端问题;如果都不行,就是线的问题。
6.2 截图黑屏或模糊?检查手机“截图权限”和“电池优化”
- 现象:AI看到的屏幕是黑的,或文字严重模糊。
- 原因:部分国产ROM(如MIUI、ColorOS)默认禁止第三方App截图,或开启“极致省电”导致ADB服务被杀。
- 解决:
- 设置 → 应用管理 → ADB Shell → 权限 → 开启“截取屏幕”;
- 设置 → 电池与性能 → 电池优化 → 找到“Android Debug Bridge” → 设为“不优化”。
6.3 指令执行一半卡住?大概率是界面加载慢,不是AI故障
- 现象:AI点击“搜索”后,一直停在搜索页,不输入文字。
- 原因:某些App(如小红书)首页广告多,加载慢,AI截图时还没渲染出搜索框。
- 对策:加
--wait-for-ui 3参数,让AI每步操作后等待3秒再截图;或指令中明确写“等待首页加载完成”。
6.4 中文输入乱码?ADB Keyboard没设为默认输入法
- 现象:输入框里出现方块、问号或英文乱码。
- 原因:手机系统默认输入法拦截了ADB键盘的字符流。
- 解决:必须手动进入「设置」→「语言与输入法」→ 把 ADB Keyboard 拖到第一位,并设为默认。重启手机后生效。
6.5 模型返回“无法理解界面”?试试降低屏幕分辨率
- 现象:高端机(如三星S23、iPhone安卓模拟器)截图过大(2400×1080),模型推理超时或OOM。
- 对策:在
config.yaml中设置:adb: screenshot_resolution: "1080x2220" # 强制缩放,兼顾清晰与速度
7. 总结:自动化不是替代人,而是让人回归人的角色
Open-AutoGLM 最打动人的地方,不是它多聪明,而是它足够“老实”——不承诺100%成功率,但每次失败都会告诉你卡在哪;不鼓吹“取代人类”,却默默把人从重复点击中解放出来;不开源一堆炫技代码,只交付一条清晰、可验证、可复现的自动化链路。
它不会帮你写诗、不会帮你炒股、不会替你做人生选择。但它能确保:
- 父母的挂号流程,不再因为点错一个按钮而重来;
- 运营的每日发帖,不再消耗在机械的复制粘贴里;
- 测试工程师的回归用例,不再需要手抖眼花地一遍遍点;
- 你的注意力,终于可以回到真正需要思考的地方。
技术的价值,从来不在参数多高,而在是否让普通人多了一种选择——一种不用成为程序员、也能指挥AI干活的选择。
现在,你的手机已经准备好了。
你,准备好下第一道指令了吗?
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。