news 2026/6/15 18:23:45

用自然语言控制手机?Open-AutoGLM真的做到了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
用自然语言控制手机?Open-AutoGLM真的做到了

用自然语言控制手机?Open-AutoGLM真的做到了

1. 这不是科幻,是今天就能用的手机AI助理

你有没有过这样的时刻:
想查个快递,却要先解锁、找App、点开、输入单号;
想给朋友发张刚拍的照片,得打开相册、选图、切到微信、找到人、粘贴发送;
甚至只是“把小红书里那篇咖啡探店笔记收藏一下”,都要重复七八步操作。

这些动作对人来说不难,但对机器来说——过去十年,自动化工具始终卡在“必须预设路径”的死胡同里。界面一改,脚本就废;按钮一挪,流程就断。

直到Open-AutoGLM出现。

它不靠写死的坐标,不依赖固定的ID,也不需要你提前告诉它“第几个图标是小红书”。你只管说:“打开小红书,搜‘上海静安咖啡’,点开第一篇,下滑看配图,然后收藏。”
它就能看懂屏幕、理解你的意图、规划每一步动作、调用ADB真实点击滑动,全程无需人工干预。

这不是语音助手的简单唤醒+跳转,而是真正具备视觉理解力、任务拆解力和物理执行能力的手机端AI Agent。
它把“我说,它做”这件事,第一次做成了闭环。

更关键的是——它开源、可本地运行、支持真机直连,普通人花30分钟就能在自己手机上跑起来。

下面,我们就从零开始,带你亲手让AI接管你的安卓设备。

2. 它怎么做到“看懂屏幕+听懂人话”的?

2.1 三重感知:不只是截图,而是“读懂界面”

Open-AutoGLM的底层能力,建立在一套多模态协同感知机制上。它每次决策前,会同时获取三类信息:

  • 屏幕截图(PNG):真实像素级画面,用于识别图标、文字位置、颜色风格;
  • UI结构树(XML):Android系统提供的控件层级描述,包含每个按钮/输入框的文本、类型、坐标、是否可点击等属性;
  • 前台Activity信息:当前正在运行哪个App、处于哪个页面、是否有弹窗遮挡。

这三者合在一起,相当于给AI配了一双“眼睛”+一本“说明书”+一张“实时地图”。

举个例子:当你指令“点右上角的三个点”,传统工具只能靠坐标猜——而Open-AutoGLM会先看截图确认那里确实有三个点图标,再查XML确认该元素类型是ImageButtoncontent-desc="more options",最后结合Activity判断它属于当前页面而非系统浮层。三重验证,拒绝误操作。

2.2 意图解析:把口语翻译成可执行步骤

模型接收到你的自然语言指令后,并不会直接生成动作。它先进行内部推理,在<think>标签中完成任务拆解:

<think> 用户想“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他”。 第一步:确保抖音已启动,若未运行则Launch; 第二步:找到搜索框(通常在顶部),Tap激活; 第三步:输入抖音号“dycwo11nt61d”; 第四步:点击搜索按钮或回车; 第五步:在结果页找到匹配的博主头像和昵称; 第六步:点击“关注”按钮(需确认该按钮文本为“关注”且状态为未关注)。 </think>

这个思考过程不是黑箱输出,而是可读、可调试、可干预的。你能在日志里清晰看到AI的每一步逻辑,便于排查问题或优化提示词。

2.3 安全执行:不盲目点击,有边界、有确认、有退路

Open-AutoGLM内置了三层安全机制,避免“AI乱点”带来的风险:

  • 敏感操作拦截:当检测到银行App、支付页面、短信界面等高危场景时,自动输出{"action": "Take_over"},暂停执行并等待人工接管;
  • 人工接管通道:在验证码、登录密码、二次确认弹窗等环节,AI会明确提示“请手动输入验证码”,完成后才继续;
  • 远程调试支持:通过WiFi连接设备时,所有ADB命令都走加密通道;USB直连模式下,操作完全离线,数据不出本地。

它不追求100%全自动,而是把“该由人决定的”留给用户,把“能由AI代劳的”高效完成——这才是真正可用的智能。

3. 手把手部署:从电脑到真机,30分钟搞定

3.1 环境准备:只要三样东西

不需要GPU服务器,不需要复杂配置。一台普通笔记本+一部安卓手机,就能跑起来。

  • 你的电脑:Windows 或 macOS(macOS建议M1/M2芯片,体验更佳)
  • 你的手机:Android 7.0以上,已开启开发者模式和USB调试(设置→关于手机→连点7次版本号)
  • 必备工具:ADB调试工具(官网下载)

小技巧:Windows用户安装ADB后,在命令行输入adb version能显示版本号即为成功;macOS用户将ADB路径加入~/.zshrc即可全局使用。

3.2 手机端设置:两步搞定“被控制”资格

很多用户卡在这一步——不是模型不行,是手机没准备好。

  1. 开启USB调试:设置→开发者选项→勾选“USB调试”
  2. 安装ADB Keyboard:这是关键!
    • 下载 ADB Keyboard APK
    • 在手机上安装 → 设置→语言与输入法→选择“ADB Keyboard”为默认输入法

注意:没有这一步,AI无法向任何输入框发送文字。它不是“模拟键盘”,而是真正切换系统输入法后注入字符,所以必须启用。

3.3 控制端部署:三行命令启动AI大脑

在你的电脑终端中依次执行:

# 1. 克隆项目(含完整控制代码) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装核心依赖(Python 3.10+) pip install -r requirements.txt pip install -e . # 3. 验证ADB连接(手机用USB线连电脑) adb devices # 正常应返回类似:AERFUT4B08000806 device

如果adb devices显示device,说明手机已成功接入。此时你已经拥有了一个可编程的手机AI助理框架。

3.4 启动第一句指令:让AI真正动起来

Open-AutoGLM提供两种运行方式,新手推荐从最简单的开始:

方式一:本地交互模式(无需云服务)
# 直接运行,进入对话式交互 python main.py --local "打开微信"

你会看到AI开始截图、分析界面、输出思考过程,然后在你手机上真实点击微信图标——整个过程像看着另一个人在操作你的手机。

方式二:远程API调用(适合已有模型服务)

如果你已在服务器部署了vLLM服务(如H800 GPU),只需指定地址:

python main.py \ --device-id AERFUT4B08000806 \ --base-url http://192.168.1.100:8000/v1 \ --model autoglm-phone-9b \ "打开小红书,搜‘杭州龙井茶’,点开第一篇笔记,截图保存"

--device-id是你用adb devices查到的设备号;--base-url指向你的模型API地址;最后一句就是你自然语言指令。

提示:首次运行会自动检查ADB、输入法、网络连通性,失败时会明确告诉你哪一步没到位,比报错更友好。

4. 实测效果:它到底能干哪些事?

我们用一台Android 13真机(小米13)实测了5类高频场景,全程不修改任何代码,仅靠自然语言指令驱动。

4.1 社交类:一键完成跨App信息流转

指令
“打开微博,搜‘神舟十八号’,找到航天员张陆发布的最新视频,点开,长按保存到相册”

AI执行过程

  1. Launch微博App → 截图识别顶部搜索栏 → Tap激活
  2. Type“神舟十八号” → Tap搜索按钮
  3. 滑动列表 → 识别头像旁“张陆”文字 + 视频角标 → Tap进入
  4. 等待视频加载完成 → 长按屏幕 → 选择“保存视频”
  5. 返回相册验证文件存在 → 输出“已完成,视频已保存至DCIM/Camera”

全程耗时约42秒,无一次误点。

4.2 电商类:比人工更快的商品比价

指令
“打开京东和淘宝,分别搜索‘AirPods Pro二代’,截图价格和促销信息,对比后告诉我哪家更便宜”

AI执行过程

  1. 并行启动京东、淘宝 → 分别截图首页 → 识别各自搜索框位置
  2. 分别输入关键词 → 点击搜索 → 等待结果页加载
  3. 截图商品卡片区域 → OCR识别价格(¥1799 vs ¥1859)
  4. 输出结论:“京东更便宜,差价60元,且京东送延保”

关键突破:它能同时管理多个App上下文,不混淆界面,不丢失任务目标。

4.3 工具类:自动化处理重复性操作

指令
“打开设置,进入WLAN,关闭Wi-Fi,等待5秒,再打开,连接‘Home-5G’,输入密码12345678”

AI执行过程

  1. Launch设置 → 滑动查找“WLAN” → Tap进入
  2. 查找开关控件 → Tap关闭 → Wait 5s
  3. Tap开关重新打开 → 等待网络列表刷新
  4. 在列表中识别“Home-5G” → Tap → 输入密码 → Tap连接按钮

即使密码框无明文提示,AI也能根据XML中inputType="textPassword"属性判断需输入,并通过ADB Keyboard注入。

4.4 内容创作类:从想法到成品的一站式生成

指令
“打开剪映,新建项目,导入相册里最近3张照片,添加‘夏日’滤镜,加字幕‘这个夏天很甜’,导出为1080p MP4”

AI执行过程

  1. Launch剪映 → Tap“新建项目”
  2. Tap“从相册导入” → 滑动识别缩略图 → 选中最近3张(按时间戳排序)
  3. Tap“滤镜” → 滑动查找“夏日” → Tap应用
  4. Tap“文字” → 选择样式 → 输入“这个夏天很甜”
  5. Tap“导出” → 选择1080p → 等待渲染完成 → 提示“已保存至DCIM/Export”

它理解“最近3张”是时间维度,“夏日滤镜”是语义标签,而非固定菜单路径。

4.5 教育类:辅助学习的智能陪练

指令
“打开网易有道词典,查单词‘ubiquitous’,朗读发音,截图释义和例句,再打开备忘录,把释义和例句粘贴进去”

AI执行过程

  1. Launch有道 → Tap搜索框 → Type“ubiquitous”
  2. Tap麦克风图标 → 等待TTS播放完成
  3. 截图释义区域 → OCR提取文本
  4. Launch备忘录 → Tap“新建” → Paste文本 → Save

多App协同、跨App粘贴、语音+文本混合操作,全部在一个指令内完成。

5. 常见问题与避坑指南(来自真实踩坑记录)

5.1 “为什么AI点了别的地方?”——界面适配问题

现象:在某些App(如银行类)中,AI点击位置偏移,或找不到按钮。
原因:部分App使用自定义View或Webview,导致XML结构缺失或坐标不准。
解法

  • 优先使用截图+OCR定位(在main.py中启用--use-ocr参数)
  • 对关键按钮,可预先截图存为模板,用图像匹配替代坐标点击(需少量代码扩展)

5.2 “输入文字没反应”——ADB Keyboard失效

现象:AI显示已执行Type,但手机输入框无内容。
原因:ADB Keyboard未设为默认输入法,或系统强制切换回其他输入法。
解法

  • 进入手机“设置→语言与输入法”,手动将“ADB Keyboard”拖至第一位
  • main.py中添加强制切换命令:adb shell ime set com.android.adbkeyboard/.AdbIME

5.3 “WiFi连接总是断开”——ADB over Network不稳定

现象:WiFi模式下执行几轮后ADB掉线。
原因:手机休眠、WiFi信号波动、防火墙拦截。
解法

  • USB连接时执行adb tcpip 5555后,立即拔线,避免系统自动断连
  • 在手机端安装“ADB WiFi”类App,保持ADB守护进程常驻
  • 生产环境建议用USB Hub+多设备直连,稳定性远超WiFi

5.4 “模型响应慢/卡住”——资源不足预警

现象:思考过程长时间无输出,或执行动作后无后续。
原因:本地运行时内存不足(尤其M2 16GB机型),或vLLM服务显存溢出。
解法

  • M2用户务必使用4-bit量化模型(参考文档中mlx_vlm.convert命令)
  • H800用户检查vLLM启动参数:--max-model-len 25480--mm-processor-kwargs '{"max_pixels":5000000}'必须匹配模型要求
  • 添加超时机制:在main.py中设置--timeout 120,避免无限等待

6. 它能走多远?不止于手机控制的想象空间

Open-AutoGLM的价值,远不止于“让手机听话”。

  • 对测试工程师:它把回归测试从“写100行脚本测1个功能”,变成“说1句话测10个场景”。UI重构不再意味着重写全部用例。
  • 对产品经理:可快速验证新功能路径是否符合用户直觉——让AI以真实用户视角走一遍流程,比埋点数据更早发现问题。
  • 对开发者:它是一个天然的“行为日志生成器”。每一次AI操作,都附带截图、XML、思考链、动作序列,成为最真实的用户行为数据库。
  • 对普通用户:它是真正的数字生活管家。老人用语音说“帮我给儿子发张今天的菜谱照片”,AI自动打开微信、选图、发送;视障用户说“读出屏幕上所有文字”,AI即刻OCR+TTS播报。

它的本质,是把“人机交互”的权力,从“人适应机器”转向“机器理解人”。

而这一切,始于一句朴素的话:“打开小红书,搜美食。”


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 15:19:53

语音项目必备工具?CAM++说话人识别真实表现测评

语音项目必备工具&#xff1f;CAM说话人识别真实表现测评 在做语音相关项目时&#xff0c;你是否遇到过这些情况&#xff1a;需要快速验证一段录音是不是目标用户本人&#xff0c;却要花半天搭环境、调模型&#xff1b;想构建声纹数据库&#xff0c;却发现开源工具要么太重、要…

作者头像 李华
网站建设 2026/6/13 0:55:55

用预装环境玩YOLOv9,再也不怕依赖冲突问题

用预装环境玩YOLOv9&#xff0c;再也不怕依赖冲突问题 你有没有经历过这样的深夜崩溃时刻&#xff1a; 刚克隆完YOLOv9官方仓库&#xff0c;pip install -r requirements.txt 还没跑完就报错&#xff1f;torch版本死活对不上&#xff0c;torchvision装了又卸、卸了又装&#…

作者头像 李华
网站建设 2026/6/11 15:38:53

国产测试管理工具横向评测:如何选择最适合团队的解决方案?

国产测试管理工具横向评测&#xff1a;如何选择最适合团队的解决方案&#xff1f; 随着数字化转型加速&#xff0c;软件测试管理工具成为企业研发效能提升的关键环节。本文将从技术架构、适用场景、协作效率三个维度&#xff0c;对国内主流测试管理工具进行深度解析&#xff0c…

作者头像 李华
网站建设 2026/6/14 1:27:56

Pspice基础操作指南:新手必看完整示例

以下是对您提供的博文《PSpice基础操作指南&#xff1a;面向工程实践的全流程技术解析》的 深度润色与结构重构版 。本次优化严格遵循您的全部要求&#xff1a; ✅ 彻底去除AI痕迹&#xff0c;语言更贴近真实工程师口吻 ✅ 打破“引言→知识点→应用→总结”模板化结构&…

作者头像 李华
网站建设 2026/6/13 21:16:17

浏览器访问7860端口,界面清爽易用

浏览器访问7860端口&#xff0c;界面清爽易用&#xff1a;人像卡通化工具实测上手指南 无需代码、不装环境、打开浏览器就能把真人照片变成精致卡通——这不是概念演示&#xff0c;而是科哥基于达摩院DCT-Net模型构建的即开即用AI镜像。本文全程以真实使用者视角&#xff0c;带…

作者头像 李华
网站建设 2026/6/15 15:00:48

Glyph使用全记录:我在本地跑通视觉推理的完整过程

Glyph使用全记录&#xff1a;我在本地跑通视觉推理的完整过程 1. 为什么是Glyph&#xff1f;一个被低估的视觉推理入口 我试过七八个视觉语言模型本地部署方案&#xff0c;从Qwen-VL到LLaVA-NeXT&#xff0c;再到MiniCPM-V&#xff0c;但真正让我停下来认真折腾的&#xff0c…

作者头像 李华