news 2026/5/1 6:08:37

手把手教你用Open-AutoGLM打造专属手机AI助手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你用Open-AutoGLM打造专属手机AI助手

手把手教你用Open-AutoGLM打造专属手机AI助手

1. 这不是科幻,是今天就能用上的真实能力

你有没有过这样的时刻:

  • 想在小红书搜“上海周末咖啡馆”,但正忙着做饭,腾不出手点手机;
  • 想给朋友转发抖音上那个搞笑视频,却卡在登录验证页反复失败;
  • 做电商运营要每天检查5个平台的竞品价格,手指点到发麻……

这些事,现在不用自己动手了。
Open-AutoGLM 不是概念演示,而是一个真正能“看见屏幕、理解意图、自动操作”的手机AI助手——它不靠预设脚本,不依赖固定界面,而是像人一样看图说话、边看边做。

它背后的核心能力有三块:

  • 看得懂:用视觉语言模型实时分析手机截图,识别按钮、文字、图标、布局;
  • 想得清:把你的自然语言指令(比如“打开美团搜川菜”)拆解成可执行动作序列;
  • 做得准:通过 ADB 精确控制点击、滑动、输入、返回等操作,连长按和双击都支持。

这不是遥控器,也不是录屏回放。它是第一个能在主流安卓App里稳定完成多步任务的开源手机Agent框架。
本文不讲原理、不堆参数,只带你从零开始,10分钟连上真机,30分钟跑通第一个任务,全程避开我踩过的7个大坑。

2. 准备工作:三样东西,缺一不可

别急着敲代码。先确认这三样基础是否就位——90%的失败都卡在这一步。

2.1 Python环境:必须3.10+,别用系统自带版本

运行python --version,如果显示低于3.10(比如3.8或2.7),请立刻卸载重装。
Windows用户直接去 python.org 下载最新版,安装时务必勾选“Add Python to PATH”
Mac用户推荐用 Homebrew 安装:

brew install python@3.10

小贴士:不要用Anaconda或Miniconda管理这个项目。Open-AutoGLM对依赖版本敏感,虚拟环境反而更稳。

2.2 ADB工具:电脑遥控手机的“方向盘”

ADB不是APP,而是一组命令行工具。它让你的电脑能“看到”手机、向手机发指令、截取屏幕。
下载地址:Android官方平台工具

  • Windows:下载zip包,解压到C:\adb(路径别带中文和空格)
  • Mac:解压到~/Downloads/platform-tools

配置环境变量(让终端 anywhere 都能认出adb):

  • Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴C:\adb
  • Mac:在终端运行
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

验证是否成功:

adb version

看到类似Android Debug Bridge version 1.0.41就算通关。

2.3 安卓手机:7.0以上,且必须开启两个开关

你的手机需要同时满足:

  • 系统版本 ≥ Android 7.0(Nougat)
  • 开启USB调试USB调试(安全设置)(后者常被忽略!)

设置路径:

  1. 设置 → 关于手机 → 连续点击“版本号”7次 → 开启开发者模式
  2. 返回设置 → 系统 → 开发者选项 → 打开USB调试
  3. 同一页面往下翻 → 找到USB调试(安全设置)USB安装→ 也打开

注意:很多用户卡在第二步,手机连电脑后显示unauthorized,就是因为漏了这个“安全设置”。授权弹窗只出现一次,错过就得重启ADB服务。

3. 手机端专项配置:让AI能“打字”

普通输入法无法被ADB调用。你需要一个专为自动化设计的输入法:ADB Keyboard

3.1 安装ADB Keyboard

下载地址:ADBKeyboard.apk
安装方式二选一:

  • 电脑端安装(推荐)
    adb install ADBKeyboard.apk
  • 手机端安装:浏览器下载APK,手动点击安装(需开启“未知来源应用”)

3.2 启用并设为当前输入法

  1. 手机设置 → 语言与输入法 → 虚拟键盘
  2. 找到ADB Keyboard,点击启用
  3. 不需要设为默认输入法——Open-AutoGLM会在需要时自动切换,用完即切回原输入法

验证方法:在微信聊天框长按输入框,如果弹出“ADB Keyboard”选项,说明已就绪。

4. 项目部署:四步到位,拒绝玄学

4.1 克隆代码仓库

git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM

4.2 创建干净的Python虚拟环境

避免依赖冲突,这是最稳妥的做法:

  • Windows
    python -m venv venv venv\Scripts\activate
  • Mac/Linux
    python3 -m venv venv source venv/bin/activate

激活后,命令行前会显示(venv)

4.3 安装依赖(关键:用国内镜像源)

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple pip install -e .

如果卡在torchtransformers安装:

  • Windows用户:先单独安装pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  • Mac M系列芯片:用pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu

4.4 连接你的手机

插上USB线,运行:

adb devices

正常输出应类似:

List of devices attached ZY2234567890 device

如果显示unauthorized,去手机通知栏点“允许USB调试”。
如果空白,执行:

adb kill-server && adb start-server && adb devices

5. 模型方案选择:云端API or 本地部署?

你不需要两者都做。根据硬件和需求,选一个即可。

5.1 新手首选:智谱AI云端API(5分钟启动)

注册地址:智谱AI开放平台

  • 登录后进入「API密钥」页面,创建新密钥
  • 复制密钥(开头为sk-的一长串字符)

执行第一条指令:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxx" \ "打开微信,给文件传输助手发送消息:你好,AI已就绪"

成功标志:手机自动解锁(如已锁屏)、打开微信、找到文件传输助手、输入文字、点击发送。

5.2 进阶玩家:本地部署AutoGLM-Phone-9B(适合RTX 3090+)

模型地址:Hugging Face
使用vLLM启动(性能最优):

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --mm-processor-cache-type shm \ --mm-processor-kwargs "{\"max_pixels\":5000000}"

注意:首次运行会下载约18GB模型文件,请确保磁盘空间充足。启动后访问http://localhost:8000/v1/models可验证服务状态。

6. 第一个任务:亲眼见证AI接管手机

别跳过这一步。亲手跑通,才能建立真实信任。

6.1 最简测试:确认ADB与模型通信正常

python main.py \ --device-id $(adb devices | sed -n '2p' | awk '{print $1}') \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置,进入关于手机"

$(adb devices | sed -n '2p' | awk '{print $1}')是自动获取第一个设备ID的命令,Windows用户请替换为实际ID(如ZY2234567890)。

6.2 实战任务:三步完成“小红书美食搜索”

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxx" \ "打开小红书,搜索上海周末美食探店"

你会看到:

  1. 手机自动拉起小红书App(如未安装则提示)
  2. 点击顶部搜索框,输入“上海周末美食探店”
  3. 点击搜索按钮,加载结果页

整个过程约3-8秒,取决于网络和手机性能。

7. 日常使用:三种姿势,随心切换

7.1 命令行单次执行:适合快速任务

语法极简:

python main.py [参数] "你的自然语言指令"

常用组合:

  • 指定设备(远程WiFi控制):
    python main.py --device-id 192.168.1.100:5555 --base-url ... "打开抖音刷10个视频"
  • 中文指令 + 英文系统手机:
    python main.py --lang en --base-url ... "Open WeChat and send message to File Transfer Assistant"
  • 查看已适配App列表:
    python main.py --list-apps

7.2 交互模式:像聊天一样连续下指令

去掉最后的指令字符串,进入对话式操作:

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "sk-xxx"

然后输入:

> 打开淘宝 > 搜索无线蓝牙耳机 > 点击销量排序 > 进入第一个商品详情页 > 截图并保存

每条指令独立执行,AI会记住上下文(比如“第一个商品”指上一步结果中的首项)。

7.3 Python API集成:嵌入你的自动化脚本

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置云端模型 config = ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4", model_name="autoglm-phone", api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx" ) agent = PhoneAgent(model_config=config) # 执行任务,返回结构化结果 result = agent.run("打开大众点评,搜索附近评分4.5以上的咖啡馆") print(f"任务状态:{result.status}") # success / failed print(f"执行步骤:{result.steps}")

优势:可批量调用、可加异常处理、可对接数据库或Webhook。

8. 它能做什么?一张表看清能力边界

Open-AutoGLM不是万能的,但它清楚知道自己能做什么、不能做什么。以下是实测验证的10种原子操作:

操作类型能力说明实际可用场景限制说明
Launch启动App“打开微博”、“启动高德地图”需App已安装,名称支持模糊匹配
Tap点击坐标或元素“点击搜索框”、“点击‘立即购买’按钮”对动态加载内容(如瀑布流)识别率略低
Type输入文字“搜索‘深圳天气’”、“发送‘收到’”依赖ADB Keyboard,中英文均支持
Swipe滑动屏幕“向上滑动查看更多”、“左右切换Tab”支持指定方向和距离,精度±50px
Back返回上一页“返回首页”、“退出当前页面”等效于手机物理返回键
Home回到桌面“结束任务”、“清理后台”等效于手机Home键
Long Press长按操作“长按图片保存”、“长按链接复制”时长可配置,默认800ms
Double Tap双击操作“双击点赞”、“双击放大图片”用于特定交互场景
Wait主动等待“等待页面加载完成”、“等待网络请求响应”可设超时时间,避免死等
Take_over人工接管“遇到验证码时暂停”、“支付密码页提示接管”AI主动触发,安全关键环节

关于安全:所有涉及支付、人脸识别、短信验证码的操作,系统默认触发Take_over,屏幕会显示“请人工接管”,你操作完成后按任意键继续。

9. 踩坑急救包:7个高频问题速查

9.1 ADB显示“no devices”或空白

原因:驱动未安装 / USB调试未授权 / 线缆接触不良
解决

adb kill-server && adb start-server && adb devices

若仍无效:

  • Windows用户去设备管理器,找到带黄色感叹号的“Android”设备,右键更新驱动(指向ADB解压目录)
  • 换原装USB线,插主板后置USB口

9.2 App能打开,但点不了任何按钮

99%是“USB调试(安全设置)”没开
路径:设置 → 开发者选项 → 找到该选项并开启。

9.3 输入中文时显示方块或乱码

原因:ADB Keyboard未启用或未正确切换
验证:在微信输入框长按 → 是否出现“ADB Keyboard”选项?
修复:手机设置 → 语言与输入法 → 启用ADB Keyboard(无需设默认)

9.4 截图黑屏(银行/支付宝等App)

正常现象。金融类App强制禁止截图,属系统级防护。
Open-AutoGLM会自动跳过该步骤,或触发Take_over提示你接管。

9.5 Windows命令行中文乱码

临时修复

chcp 65001 && python main.py ...

永久修复:在CMD属性→字体→选“Lucida Console”或“Consolas”。

9.6 任务执行一半卡住不动

常见原因

  • 页面加载慢(如图片多的网页)→ 在指令中加入“等待3秒”
  • 弹窗广告遮挡 → 手动关闭后,AI会继续执行
  • 网络超时 → 检查手机Wi-Fi/蜂窝数据是否开启

9.7 模型返回乱码或无响应

检查点

  • 云端API:确认密钥有效、配额未用尽、网络能访问open.bigmodel.cn
  • 本地部署:检查vLLM启动日志是否有CUDA OOM错误,降低--max-model-len至20000

10. 让AI更听话的4个实战技巧

10.1 指令越具体,成功率越高

❌ 模糊指令:“帮我订个外卖”
明确指令:“打开美团,搜索‘海底捞’,选择‘环球港店’,点‘番茄牛腩锅’,下单支付”

10.2 复杂任务分步执行

一次性指令太长,AI容易“想岔”。拆成两步更稳:

python main.py "打开淘宝,搜索iPhone 15 Pro" python main.py "点击销量排序,进入第一个商品页,截图"

10.3 善用“等待”和“重试”

在关键节点加等待,避免因加载延迟失败:

python main.py "打开知乎,搜索‘AI手机助手’,等待2秒,点击第一个回答"

10.4 敏感操作永远人工接管

绝不让AI输入:

  • 支付密码、银行卡号、身份证号
  • 邮箱验证码、微信登录二维码
  • 任何带“确认支付”“同意协议”字样的弹窗

系统已内置接管机制,你只需在提示出现时手动操作即可。

11. 进阶场景:不只是玩具,更是生产力工具

11.1 自动化App测试(开发者必备)

test_cases = [ "打开App,点击‘我的’Tab", "点击头像,进入登录页", "输入测试账号test@demo.com,密码123456", "点击登录,等待首页加载" ] for i, case in enumerate(test_cases, 1): result = agent.run(case) print(f"步骤{i}:{case} → {result.status}")

11.2 定时信息采集(运营人员福音)

结合Linux cron:

# 每天上午9点抓取京东某商品价格 0 9 * * * cd /home/user/Open-AutoGLM && python main.py "打开京东,搜索‘RTX4090显卡’,截图价格区域" >> /var/log/price.log

11.3 跨平台内容分发(自媒体人)

platforms = ["微博", "小红书", "知乎"] content = "【AI实测】Open-AutoGLM手机助手深度体验报告" for p in platforms: agent.run(f"打开{p},发布动态:{content}")

12. 性能与成本:算一笔明白账

方案响应速度单次成本硬件要求适合人群
云端API2-5秒0.1-0.5元/次快速体验、偶尔使用、无GPU用户
本地部署1-3秒电费≈0.02元/小时RTX 3090(24G)起频繁使用、隐私敏感、开发者

成本提示:智谱AI新用户赠送100万tokens免费额度,够执行2000+次中等复杂度任务。

13. 总结:你的手机,从此多了一个沉默的帮手

Open-AutoGLM的价值,不在于它多酷炫,而在于它足够“实在”:

  • 它不依赖Root,不修改系统,用标准ADB协议,安全合规;
  • 它不靠固定坐标,而是用视觉理解界面,适配主流App成功率超85%;
  • 它不卖概念,所有代码开源,所有文档直给,你随时可以改、可以扩、可以集成。

它不会取代你,但会悄悄帮你省下每天15分钟——那些重复点击、反复输入、来回切换的时间。
当你第一次看着手机自己打开小红书、输入关键词、滑动浏览,那种“原来真的可以”的震撼,值得你花30分钟部署。

最后提醒一句:技术是中性的,用它提升效率,而非绕过规则。
支付、认证、隐私相关操作,请永远选择人工接管。真正的智能,是知道何时该放手。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 18:12:28

新手避坑指南:YOLOv10镜像部署常见问题全解

新手避坑指南:YOLOv10镜像部署常见问题全解 刚点开YOLOv10镜像,满怀期待地输入conda activate yolov10,结果终端弹出Command conda not found? 运行yolo predict modeljameslahm/yolov10n卡在“Downloading weights…”十分钟不动…

作者头像 李华
网站建设 2026/4/23 16:24:35

如何用Speech Seaco Paraformer做实时语音输入?麦克风识别实战指南

如何用Speech Seaco Paraformer做实时语音输入?麦克风识别实战指南 1. 这不是“又一个ASR工具”,而是你缺的那块实时语音拼图 你有没有过这样的时刻:开会时手忙脚乱记笔记,漏掉关键结论;写方案卡在开头,想…

作者头像 李华
网站建设 2026/4/2 4:23:40

利用jscope实现产线状态监测:项目应用详解

以下是对您提供的博文《利用jscope实现产线状态监测:项目应用详解》的 深度润色与专业优化版本 。本次改写严格遵循您的全部要求: ✅ 彻底去除AI痕迹,语言自然、真实,像一位有十年工控经验的现场工程师在技术博客中娓娓道来&am…

作者头像 李华
网站建设 2026/4/23 16:25:52

产品图透明底生成:UNet电商应用详解

产品图透明底生成:UNet电商应用详解 电商运营人员每天要处理上百张商品图——主图、详情页、短视频封面、社交媒体配图……但一张合格的电商主图,往往卡在最基础的一步:去背景。白底图不够干净,换背景又费时费力,外包…

作者头像 李华
网站建设 2026/5/1 1:15:02

仓颉编程语言入门_基础语法(4)

输入和输出输入其实在前面的文章中,几乎所有代码演示的部分,都用到了打印输出函数print或者println,从键盘读取用户输入则由readln函数实现,readln函数负责从键盘读取一行字符串并返回。例如,在下面的代码中演示了输入…

作者头像 李华
网站建设 2026/4/23 10:05:51

GPEN备份恢复策略:模型文件与输出结果异地容灾方案

GPEN备份恢复策略:模型文件与输出结果异地容灾方案 1. 为什么GPEN需要专业的备份恢复方案 GPEN图像肖像增强工具在实际使用中,承担着大量珍贵照片的修复与增强任务。这些照片往往具有不可替代性——可能是家族老照片、重要证件照、商业人像作品&#x…

作者头像 李华