手把手教你部署Open-AutoGLM,打造专属贾维斯
你有没有想过,让手机自己“看懂”屏幕、“听懂”你的指令,再自动点开APP、输入文字、完成下单?这不是科幻电影——Open-AutoGLM 就是这样一套真正落地的手机端AI智能体框架。它不依赖云端API,所有理解、思考、操作都在本地闭环完成;你只需说一句“打开小红书搜美食攻略”,它就能截图分析界面、规划点击路径、调用ADB模拟操作,全程无需手动干预。
更关键的是:它开源、可部署、不联网也能运行(模型服务本地启动),隐私安全有保障。本文将带你从零开始,不跳过任何一个细节,手把手完成全部部署流程——哪怕你没写过一行Python,也能在2小时内让自己的手机第一次开口“听话”。
1. 先搞懂它到底是什么:不是玩具,是真能干活的AI助理
1.1 它和普通AI App有本质区别
市面上很多“AI助手”只是语音转文字+调用固定接口,而 Open-AutoGLM 是视觉语言模型 + 智能规划引擎 + ADB设备控制器三位一体的系统:
- 看得见:每一步操作前,它会截取当前手机屏幕,用多模态模型理解界面上的文字、图标、按钮位置;
- 想得清:基于自然语言指令,推理出“现在在哪、要到哪、怎么走”,生成可执行的动作序列(比如:先点搜索框 → 输入“火锅” → 点击放大镜图标);
- 动得准:通过 ADB 命令精准控制点击坐标、滑动轨迹、输入法切换,连长按、双击、返回键都能模拟。
这不是“调用API”,而是让AI像人一样观察、思考、动手——这才是真正的“手机贾维斯”。
1.2 它能帮你做什么?这些事它已经跑通了
我们实测过的真实场景(非演示视频,是真实设备运行结果):
- 打开美团 → 搜索“川菜” → 筛选“评分4.8以上” → 点击第一家店 → 查看菜单 → 下单“水煮牛肉+米饭”
- 在抖音里搜索用户“dycwo11nt61d” → 进入主页 → 点击“关注”按钮
- 微信中找到“妈妈”对话 → 输入“我到家了” → 发送成功
- 小红书搜索“北京周末拍照地” → 滑动浏览前5篇笔记 → 点赞第3篇
它已原生支持淘宝、京东、拼多多、微信、抖音、小红书、B站、高德、滴滴、12306等50+主流APP,且所有操作逻辑都可追溯、可中断、可接管。
1.3 部署门槛有多低?一句话回答
- 不需要GPU服务器:模型可在RTX 3090/4090本地运行(显存≥12GB),CPU模式也可降级使用(速度慢但能跑);
- 不需要安卓开发经验:ADB配置步骤全部图文拆解,连“环境变量怎么加”都手把手教;
- 不需要改代码:默认配置开箱即用,复杂任务才需微调。
你唯一要做的,就是跟着下一步——打开命令行,敲下第一行git clone。
2. 准备工作:三件套配齐,5分钟搞定
2.1 硬件清单(别跳过!这决定你能不能成功)
| 设备 | 最低要求 | 为什么重要 |
|---|---|---|
| 电脑 | Windows 10 / macOS 12+,16GB内存,50GB空闲空间 | 模型文件约18GB,vLLM推理需足够内存缓存 |
| 手机 | Android 7.0+,已解锁开发者选项 | 必须开启USB调试,否则ADB无法通信 |
| 数据线 | 支持数据传输的USB-C或Micro-USB线(非仅充电线) | WiFi连接可选,但首次调试强烈建议USB直连 |
注意:iPhone 不支持(ADB为安卓专用协议);模拟器(如MuMu、雷电)可替代真机,但部分APP检测虚拟环境会闪退,推荐优先用真机。
2.2 软件安装:只装这3个,别多装
2.2.1 Python 3.10+(必须)
- Windows:去 python.org 下载最新版,安装时务必勾选 “Add Python to PATH”
- macOS:终端执行
brew install python@3.10(没装Homebrew先装:/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)") - 验证:打开命令行,输入
python --version,显示Python 3.10.x或更高即成功。
2.2.2 ADB 工具(必须)
这是连接电脑和手机的“桥梁”,不是APP,是命令行工具:
- 下载地址:Android Platform Tools 官方页
- 解压后得到
adb.exe(Windows)或adb(Mac/Linux),记住这个文件夹路径,比如D:\platform-tools - 环境变量配置(关键!否则命令行认不出 adb):
- Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你的ADB路径
- Mac:终端执行
echo 'export PATH=$PATH:/Users/你的用户名/platform-tools' >> ~/.zshrc && source ~/.zshrc
- 验证:命令行输入
adb version,出现版本号(如Android Debug Bridge version 1.0.41)即成功。
2.2.3 手机端设置(3步,2分钟)
- 开开发者模式:手机“设置”→“关于手机”→连续点击“版本号”7次→提示“您已处于开发者模式”
- 开USB调试:“设置”→“系统”→“开发者选项”→打开“USB调试”(弹窗点“确定”)
- 装ADB Keyboard(中文输入关键!):
- 下载 ADBKeyboard.apk(GitHub官方发布)
- 电脑命令行进入APK所在目录,执行
adb install ADBKeyboard.apk - 手机“设置”→“系统”→“语言和输入法”→“虚拟键盘”→启用“ADB Keyboard”并设为默认
此时手机顶部状态栏应显示“USB调试已启用”,且输入法切换时能看到“ADB Keyboard”。
3. 部署核心四步:从克隆代码到第一次运行
3.1 下载并安装 Open-AutoGLM 控制端
这是你和AI交互的“遥控器”,纯Python项目,无编译:
# 1. 克隆代码(国内用户建议加 --depth 1 加速) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(注意:requirements.txt 已适配国内源) pip install -r requirements.txt pip install -e .成功标志:命令行无报错,且python -c "import phone_agent"不报错。
3.2 下载并启动 AI 模型服务(核心!)
模型名为AutoGLM-Phone-9B,是一个9B参数的多模态视觉语言模型,需约18GB空间:
方式一:国内用户(推荐,ModelScope镜像,10分钟下载完)
# 1. 克隆模型(自动走阿里云加速) git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git # 2. 安装vLLM推理引擎(高性能,支持多模态) pip install vllm # 3. 启动服务(Linux/Mac) python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model ./AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --limit-mm-per-prompt '{"image":10}'方式二:Windows用户简化版(无多模态高级参数,基础可用)
python -m vllm.entrypoints.openai.api_server ^ --served-model-name autoglm-phone-9b ^ --model .\AutoGLM-Phone-9B ^ --port 8000 ^ --max-model-len 25480启动成功标志:终端输出Uvicorn running on http://0.0.0.0:8000,且浏览器访问http://localhost:8000/docs能看到OpenAI兼容API文档。
提示:首次启动会加载模型到显存,需30-60秒。若报错
CUDA out of memory,请关闭其他占用显存的程序,或添加--gpu-memory-utilization 0.9参数。
3.3 连接你的手机(USB or WiFi)
确保手机已通过USB连接电脑,并在手机上点了“允许USB调试”。
# 查看是否识别到设备 adb devices正常输出:
List of devices attached ABC123456789 device如果显示unauthorized,请检查手机弹窗是否点了“允许”;如果为空,请重插USB线或换接口。
WiFi远程连接(进阶,适合桌面固定使用)
# 1. 先用USB连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,用WiFi连接(手机和电脑需在同一局域网) adb connect 192.168.1.100:5555 # 替换为手机实际IP(在手机“无线调试”中查看)验证:adb devices应显示192.168.1.100:5555 device。
3.4 运行第一个指令:让AI打开“设置”
现在,一切就绪。回到Open-AutoGLM目录,执行:
python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"你会看到类似输出:
💭 思考过程: 当前在手机桌面,需要找到“设置”应用图标并点击 执行动作: {"action": "Launch", "app": "com.android.settings"} 动作完成:已启动设置应用同时,你的手机屏幕会自动跳转到“设置”界面——恭喜,你的专属贾维斯已上线!
如果卡在“思考中”超30秒:检查模型服务是否运行、ADB是否连通、手机是否亮屏未锁屏。
4. 实战技巧:3类高频任务,直接复制粘贴
4.1 生活服务类(点外卖、订车、查票)
# 美团订餐(自动搜索+下单) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开美团,搜索‘老北京炸酱面’,选择评分最高的店,下单一份" # 滴滴打车(填目的地) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开滴滴出行,输入目的地‘北京南站’,呼叫快车" # 12306购票(查余票) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开12306,查询今天北京到上海的高铁余票"技巧:描述越具体越好,比如“评分最高”“今天”“北京到上海”,AI能更好理解意图。
4.2 社交娱乐类(发消息、刷内容、关注)
# 微信发消息(支持联系人名) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开微信,给张三发送‘周末一起吃饭?’" # 抖音关注用户(支持ID) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开抖音,搜索用户‘dycwo11nt61d’,进入主页并关注" # 小红书点赞笔记(支持关键词) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开小红书,搜索‘咖啡拉花教程’,点赞第一条笔记"注意:首次对新联系人发消息,AI会自动处理微信的“搜索联系人→点击→输入框→发送”全流程。
4.3 效率工具类(批量操作、跨APP协同)
# 批量保存图片(从微信聊天中) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开微信,进入‘工作群’,找到昨天发的3张产品图,全部保存到相册" # 对比电商价格(跨平台) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "分别在淘宝、京东、拼多多搜索‘AirPods Pro 2代’,记录最低价和销量"进阶提示:这类任务可能超过单次推理步数限制(默认100步),可在命令中加
--max-steps 200提升上限。
5. 安全与接管:敏感操作绝不越界
AI再强大,支付、删除、授权等操作也必须由你拍板——这是 Open-AutoGLM 的硬性安全设计。
5.1 自动触发人工确认的场景
- 任何涉及“支付”“付款”“充值”的指令
- 删除APP、清除聊天记录、格式化存储等危险操作
- 访问短信、通讯录、相册等隐私权限
当AI准备执行时,会暂停并打印:
需要人工确认:即将支付28.5元,是否继续?(y/n):你输入y才继续,输入n则中止。整个过程不可绕过。
5.2 自定义确认方式(开发者可扩展)
修改main.py或写独立脚本,用函数接管确认逻辑:
from phone_agent import PhoneAgent from phone_agent.model import ModelConfig def my_confirm(msg): print(f"\n 安全提示:{msg}") return input("确认执行?(yes/no): ").strip().lower() in ["y", "yes"] agent = PhoneAgent( model_config=ModelConfig(base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b"), confirmation_callback=my_confirm ) agent.run("打开美团订一份外卖")5.3 隐私保护:所有数据,留在本地
- 屏幕截图:只在本地内存处理,不上传任何服务器
- 指令文本:仅传给本地运行的vLLM模型,不经过第三方API
- ADB指令:直接发送到你的手机,无中间代理
你可以完全断开网络运行整套系统——这才是真正属于你的AI助理。
6. 排查常见问题:90%的问题,3步解决
6.1 ADB连接失败
| 现象 | 原因 | 解决方案 |
|---|---|---|
adb devices无输出 | USB调试未开启,或数据线仅充电 | 重开开发者选项→USB调试;换线或USB口 |
显示unauthorized | 手机未点“允许” | 拔插USB,看手机弹窗,点“允许” |
error: device offline | ADB服务异常 | 命令行执行adb kill-server && adb start-server |
6.2 模型服务启动失败
| 现象 | 原因 | 解决方案 |
|---|---|---|
OSError: CUDA error | 显存不足或驱动不匹配 | 关闭其他程序;升级NVIDIA驱动;加--device cpu强制CPU运行 |
ModuleNotFoundError: vllm | vLLM未正确安装 | pip uninstall vllm && pip install vllm --no-cache-dir |
Connection refused | 端口被占用 | 改--port 8001换端口;或lsof -i :8000查进程杀掉 |
6.3 AI操作失败或卡住
| 现象 | 原因 | 解决方案 |
|---|---|---|
| 一直“思考中”,无动作 | 手机锁屏、息屏或APP未响应 | 保持屏幕常亮;手动打开目标APP再试 |
| 点击错位置,或输错字 | 截图模糊、界面元素识别不准 | 清理手机后台APP;降低屏幕分辨率(设置→显示→分辨率调至“高清”) |
| 中文输入不了 | ADB Keyboard未启用 | 手机设置→语言和输入法→确保ADB Keyboard为默认且已启用 |
终极方案:遇到问题,先执行
adb shell input keyevent KEYCODE_HOME回到桌面,再重试指令。
7. 总结:你已掌握的,远不止一个工具
通过这篇教程,你已完成:
- 环境筑基:Python、ADB、开发者模式的完整配置,从此告别“环境问题”;
- 模型驾驭:从下载18GB模型到启动vLLM服务,理解多模态推理的本地化实现;
- 设备贯通:USB/WiFi双模式连接手机,掌握ADB这一安卓自动化基石;
- 指令实战:覆盖生活、社交、效率三大场景的数十条可复用命令;
- 安全掌控:理解敏感操作确认机制,建立对AI行为的完全信任边界。
你部署的不是一个Demo,而是一个可成长的AI助理——今天它能帮你点外卖,明天你就能让它自动整理微信聊天记录、监控竞品APP更新、甚至编写测试用例。它的能力上限,取决于你的想象力。
下一步,试试这些挑战:
🔹 用Python API写一个“每日早报”脚本(自动抓取新闻APP头条,语音播报)
🔹 给父母手机装上,教他们用语音指令查公交、挂号、看视频
🔹 在公司内网部署,让AI自动巡检内部APP的UI兼容性
技术的意义,从来不是炫技,而是让每个人,都拥有属于自己的“贾维斯”。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。