手把手教你部署Open-AutoGLM，打造专属贾维斯-编程实验室

手把手教你部署Open-AutoGLM，打造专属贾维斯

你有没有想过，让手机自己“看懂”屏幕、“听懂”你的指令，再自动点开APP、输入文字、完成下单？这不是科幻电影——Open-AutoGLM 就是这样一套真正落地的手机端AI智能体框架。它不依赖云端API，所有理解、思考、操作都在本地闭环完成；你只需说一句“打开小红书搜美食攻略”，它就能截图分析界面、规划点击路径、调用ADB模拟操作，全程无需手动干预。

更关键的是：它开源、可部署、不联网也能运行（模型服务本地启动），隐私安全有保障。本文将带你从零开始，不跳过任何一个细节，手把手完成全部部署流程——哪怕你没写过一行Python，也能在2小时内让自己的手机第一次开口“听话”。

1. 先搞懂它到底是什么：不是玩具，是真能干活的AI助理

1.1 它和普通AI App有本质区别

市面上很多“AI助手”只是语音转文字+调用固定接口，而 Open-AutoGLM 是视觉语言模型 + 智能规划引擎 + ADB设备控制器三位一体的系统：

看得见：每一步操作前，它会截取当前手机屏幕，用多模态模型理解界面上的文字、图标、按钮位置；
想得清：基于自然语言指令，推理出“现在在哪、要到哪、怎么走”，生成可执行的动作序列（比如：先点搜索框 → 输入“火锅” → 点击放大镜图标）；
动得准：通过 ADB 命令精准控制点击坐标、滑动轨迹、输入法切换，连长按、双击、返回键都能模拟。

这不是“调用API”，而是让AI像人一样观察、思考、动手——这才是真正的“手机贾维斯”。

1.2 它能帮你做什么？这些事它已经跑通了

我们实测过的真实场景（非演示视频，是真实设备运行结果）：

打开美团 → 搜索“川菜” → 筛选“评分4.8以上” → 点击第一家店 → 查看菜单 → 下单“水煮牛肉+米饭”
在抖音里搜索用户“dycwo11nt61d” → 进入主页 → 点击“关注”按钮
微信中找到“妈妈”对话 → 输入“我到家了” → 发送成功
小红书搜索“北京周末拍照地” → 滑动浏览前5篇笔记 → 点赞第3篇

它已原生支持淘宝、京东、拼多多、微信、抖音、小红书、B站、高德、滴滴、12306等50+主流APP，且所有操作逻辑都可追溯、可中断、可接管。

1.3 部署门槛有多低？一句话回答

不需要GPU服务器：模型可在RTX 3090/4090本地运行（显存≥12GB），CPU模式也可降级使用（速度慢但能跑）；
不需要安卓开发经验：ADB配置步骤全部图文拆解，连“环境变量怎么加”都手把手教；
不需要改代码：默认配置开箱即用，复杂任务才需微调。

你唯一要做的，就是跟着下一步——打开命令行，敲下第一行git clone。

2. 准备工作：三件套配齐，5分钟搞定

2.1 硬件清单（别跳过！这决定你能不能成功）

设备	最低要求	为什么重要
电脑	Windows 10 / macOS 12+，16GB内存，50GB空闲空间	模型文件约18GB，vLLM推理需足够内存缓存
手机	Android 7.0+，已解锁开发者选项	必须开启USB调试，否则ADB无法通信
数据线	支持数据传输的USB-C或Micro-USB线（非仅充电线）	WiFi连接可选，但首次调试强烈建议USB直连

注意：iPhone 不支持（ADB为安卓专用协议）；模拟器（如MuMu、雷电）可替代真机，但部分APP检测虚拟环境会闪退，推荐优先用真机。

2.2 软件安装：只装这3个，别多装

2.2.1 Python 3.10+（必须）

Windows：去 python.org 下载最新版，安装时务必勾选 “Add Python to PATH”
macOS：终端执行brew install python@3.10（没装Homebrew先装：/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"）
验证：打开命令行，输入python --version，显示Python 3.10.x或更高即成功。

2.2.2 ADB 工具（必须）

这是连接电脑和手机的“桥梁”，不是APP，是命令行工具：

下载地址：Android Platform Tools 官方页
解压后得到adb.exe（Windows）或adb（Mac/Linux），记住这个文件夹路径，比如D:\platform-tools
环境变量配置（关键！否则命令行认不出 adb）：
- Windows：右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你的ADB路径
- Mac：终端执行echo 'export PATH=$PATH:/Users/你的用户名/platform-tools' >> ~/.zshrc && source ~/.zshrc
验证：命令行输入adb version，出现版本号（如Android Debug Bridge version 1.0.41）即成功。

2.2.3 手机端设置（3步，2分钟）

开开发者模式：手机“设置”→“关于手机”→连续点击“版本号”7次→提示“您已处于开发者模式”
开USB调试：“设置”→“系统”→“开发者选项”→打开“USB调试”（弹窗点“确定”）
装ADB Keyboard（中文输入关键！）：
- 下载 ADBKeyboard.apk（GitHub官方发布）
- 电脑命令行进入APK所在目录，执行adb install ADBKeyboard.apk
- 手机“设置”→“系统”→“语言和输入法”→“虚拟键盘”→启用“ADB Keyboard”并设为默认

此时手机顶部状态栏应显示“USB调试已启用”，且输入法切换时能看到“ADB Keyboard”。

3. 部署核心四步：从克隆代码到第一次运行

3.1 下载并安装 Open-AutoGLM 控制端

这是你和AI交互的“遥控器”，纯Python项目，无编译：

# 1. 克隆代码（国内用户建议加 --depth 1 加速） git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建虚拟环境（推荐，避免污染全局Python） python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装依赖（注意：requirements.txt 已适配国内源） pip install -r requirements.txt pip install -e .

成功标志：命令行无报错，且python -c "import phone_agent"不报错。

3.2 下载并启动 AI 模型服务（核心！）

模型名为AutoGLM-Phone-9B，是一个9B参数的多模态视觉语言模型，需约18GB空间：

方式一：国内用户（推荐，ModelScope镜像，10分钟下载完）

# 1. 克隆模型（自动走阿里云加速） git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git # 2. 安装vLLM推理引擎（高性能，支持多模态） pip install vllm # 3. 启动服务（Linux/Mac） python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model ./AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --limit-mm-per-prompt '{"image":10}'

方式二：Windows用户简化版（无多模态高级参数，基础可用）

python -m vllm.entrypoints.openai.api_server ^ --served-model-name autoglm-phone-9b ^ --model .\AutoGLM-Phone-9B ^ --port 8000 ^ --max-model-len 25480

启动成功标志：终端输出Uvicorn running on http://0.0.0.0:8000，且浏览器访问http://localhost:8000/docs能看到OpenAI兼容API文档。

提示：首次启动会加载模型到显存，需30-60秒。若报错CUDA out of memory，请关闭其他占用显存的程序，或添加--gpu-memory-utilization 0.9参数。

3.3 连接你的手机（USB or WiFi）

确保手机已通过USB连接电脑，并在手机上点了“允许USB调试”。

# 查看是否识别到设备 adb devices

正常输出：

List of devices attached ABC123456789 device

如果显示unauthorized，请检查手机弹窗是否点了“允许”；如果为空，请重插USB线或换接口。

WiFi远程连接（进阶，适合桌面固定使用）

# 1. 先用USB连接，开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB，用WiFi连接（手机和电脑需在同一局域网） adb connect 192.168.1.100:5555 # 替换为手机实际IP（在手机“无线调试”中查看）

验证：adb devices应显示192.168.1.100:5555 device。

3.4 运行第一个指令：让AI打开“设置”

现在，一切就绪。回到Open-AutoGLM目录，执行：

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

你会看到类似输出：

💭 思考过程: 当前在手机桌面，需要找到“设置”应用图标并点击 执行动作: {"action": "Launch", "app": "com.android.settings"} 动作完成：已启动设置应用

同时，你的手机屏幕会自动跳转到“设置”界面——恭喜，你的专属贾维斯已上线！

如果卡在“思考中”超30秒：检查模型服务是否运行、ADB是否连通、手机是否亮屏未锁屏。

4. 实战技巧：3类高频任务，直接复制粘贴

4.1 生活服务类（点外卖、订车、查票）

# 美团订餐（自动搜索+下单） python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开美团，搜索‘老北京炸酱面’，选择评分最高的店，下单一份" # 滴滴打车（填目的地） python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开滴滴出行，输入目的地‘北京南站’，呼叫快车" # 12306购票（查余票） python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开12306，查询今天北京到上海的高铁余票"

技巧：描述越具体越好，比如“评分最高”“今天”“北京到上海”，AI能更好理解意图。

4.2 社交娱乐类（发消息、刷内容、关注）

# 微信发消息（支持联系人名） python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开微信，给张三发送‘周末一起吃饭？’" # 抖音关注用户（支持ID） python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开抖音，搜索用户‘dycwo11nt61d’，进入主页并关注" # 小红书点赞笔记（支持关键词） python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开小红书，搜索‘咖啡拉花教程’，点赞第一条笔记"

注意：首次对新联系人发消息，AI会自动处理微信的“搜索联系人→点击→输入框→发送”全流程。

4.3 效率工具类（批量操作、跨APP协同）

# 批量保存图片（从微信聊天中） python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开微信，进入‘工作群’，找到昨天发的3张产品图，全部保存到相册" # 对比电商价格（跨平台） python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "分别在淘宝、京东、拼多多搜索‘AirPods Pro 2代’，记录最低价和销量"

进阶提示：这类任务可能超过单次推理步数限制（默认100步），可在命令中加--max-steps 200提升上限。

5. 安全与接管：敏感操作绝不越界

AI再强大，支付、删除、授权等操作也必须由你拍板——这是 Open-AutoGLM 的硬性安全设计。

5.1 自动触发人工确认的场景

任何涉及“支付”“付款”“充值”的指令
删除APP、清除聊天记录、格式化存储等危险操作
访问短信、通讯录、相册等隐私权限

当AI准备执行时，会暂停并打印：

需要人工确认：即将支付28.5元，是否继续？(y/n):

你输入y才继续，输入n则中止。整个过程不可绕过。

5.2 自定义确认方式（开发者可扩展）

修改main.py或写独立脚本，用函数接管确认逻辑：

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig def my_confirm(msg): print(f"\n 安全提示：{msg}") return input("确认执行？(yes/no): ").strip().lower() in ["y", "yes"] agent = PhoneAgent( model_config=ModelConfig(base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b"), confirmation_callback=my_confirm ) agent.run("打开美团订一份外卖")

5.3 隐私保护：所有数据，留在本地

屏幕截图：只在本地内存处理，不上传任何服务器
指令文本：仅传给本地运行的vLLM模型，不经过第三方API
ADB指令：直接发送到你的手机，无中间代理

你可以完全断开网络运行整套系统——这才是真正属于你的AI助理。

6. 排查常见问题：90%的问题，3步解决

6.1 ADB连接失败

现象	原因	解决方案
`adb devices`无输出	USB调试未开启，或数据线仅充电	重开开发者选项→USB调试；换线或USB口
显示`unauthorized`	手机未点“允许”	拔插USB，看手机弹窗，点“允许”
`error: device offline`	ADB服务异常	命令行执行`adb kill-server && adb start-server`

6.2 模型服务启动失败

现象	原因	解决方案
`OSError: CUDA error`	显存不足或驱动不匹配	关闭其他程序；升级NVIDIA驱动；加`--device cpu`强制CPU运行
`ModuleNotFoundError: vllm`	vLLM未正确安装	`pip uninstall vllm && pip install vllm --no-cache-dir`
`Connection refused`	端口被占用	改`--port 8001`换端口；或`lsof -i :8000`查进程杀掉

6.3 AI操作失败或卡住

现象	原因	解决方案
一直“思考中”，无动作	手机锁屏、息屏或APP未响应	保持屏幕常亮；手动打开目标APP再试
点击错位置，或输错字	截图模糊、界面元素识别不准	清理手机后台APP；降低屏幕分辨率（设置→显示→分辨率调至“高清”）
中文输入不了	ADB Keyboard未启用	手机设置→语言和输入法→确保ADB Keyboard为默认且已启用

终极方案：遇到问题，先执行adb shell input keyevent KEYCODE_HOME回到桌面，再重试指令。

7. 总结：你已掌握的，远不止一个工具

通过这篇教程，你已完成：

环境筑基：Python、ADB、开发者模式的完整配置，从此告别“环境问题”；
模型驾驭：从下载18GB模型到启动vLLM服务，理解多模态推理的本地化实现；
设备贯通：USB/WiFi双模式连接手机，掌握ADB这一安卓自动化基石；
指令实战：覆盖生活、社交、效率三大场景的数十条可复用命令；
安全掌控：理解敏感操作确认机制，建立对AI行为的完全信任边界。

你部署的不是一个Demo，而是一个可成长的AI助理——今天它能帮你点外卖，明天你就能让它自动整理微信聊天记录、监控竞品APP更新、甚至编写测试用例。它的能力上限，取决于你的想象力。

下一步，试试这些挑战：
🔹 用Python API写一个“每日早报”脚本（自动抓取新闻APP头条，语音播报）
🔹 给父母手机装上，教他们用语音指令查公交、挂号、看视频
🔹 在公司内网部署，让AI自动巡检内部APP的UI兼容性

技术的意义，从来不是炫技，而是让每个人，都拥有属于自己的“贾维斯”。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手把手教你部署Open-AutoGLM，打造专属贾维斯