news 2026/6/15 13:04:51

手把手教你部署Open-AutoGLM,打造专属贾维斯

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手把手教你部署Open-AutoGLM,打造专属贾维斯

手把手教你部署Open-AutoGLM,打造专属贾维斯

你有没有想过,让手机自己“看懂”屏幕、“听懂”你的指令,再自动点开APP、输入文字、完成下单?这不是科幻电影——Open-AutoGLM 就是这样一套真正落地的手机端AI智能体框架。它不依赖云端API,所有理解、思考、操作都在本地闭环完成;你只需说一句“打开小红书搜美食攻略”,它就能截图分析界面、规划点击路径、调用ADB模拟操作,全程无需手动干预。

更关键的是:它开源、可部署、不联网也能运行(模型服务本地启动),隐私安全有保障。本文将带你从零开始,不跳过任何一个细节,手把手完成全部部署流程——哪怕你没写过一行Python,也能在2小时内让自己的手机第一次开口“听话”。


1. 先搞懂它到底是什么:不是玩具,是真能干活的AI助理

1.1 它和普通AI App有本质区别

市面上很多“AI助手”只是语音转文字+调用固定接口,而 Open-AutoGLM 是视觉语言模型 + 智能规划引擎 + ADB设备控制器三位一体的系统:

  • 看得见:每一步操作前,它会截取当前手机屏幕,用多模态模型理解界面上的文字、图标、按钮位置;
  • 想得清:基于自然语言指令,推理出“现在在哪、要到哪、怎么走”,生成可执行的动作序列(比如:先点搜索框 → 输入“火锅” → 点击放大镜图标);
  • 动得准:通过 ADB 命令精准控制点击坐标、滑动轨迹、输入法切换,连长按、双击、返回键都能模拟。

这不是“调用API”,而是让AI像人一样观察、思考、动手——这才是真正的“手机贾维斯”。

1.2 它能帮你做什么?这些事它已经跑通了

我们实测过的真实场景(非演示视频,是真实设备运行结果):

  • 打开美团 → 搜索“川菜” → 筛选“评分4.8以上” → 点击第一家店 → 查看菜单 → 下单“水煮牛肉+米饭”
  • 在抖音里搜索用户“dycwo11nt61d” → 进入主页 → 点击“关注”按钮
  • 微信中找到“妈妈”对话 → 输入“我到家了” → 发送成功
  • 小红书搜索“北京周末拍照地” → 滑动浏览前5篇笔记 → 点赞第3篇

它已原生支持淘宝、京东、拼多多、微信、抖音、小红书、B站、高德、滴滴、12306等50+主流APP,且所有操作逻辑都可追溯、可中断、可接管。

1.3 部署门槛有多低?一句话回答

  • 不需要GPU服务器:模型可在RTX 3090/4090本地运行(显存≥12GB),CPU模式也可降级使用(速度慢但能跑);
  • 不需要安卓开发经验:ADB配置步骤全部图文拆解,连“环境变量怎么加”都手把手教;
  • 不需要改代码:默认配置开箱即用,复杂任务才需微调。

你唯一要做的,就是跟着下一步——打开命令行,敲下第一行git clone


2. 准备工作:三件套配齐,5分钟搞定

2.1 硬件清单(别跳过!这决定你能不能成功)

设备最低要求为什么重要
电脑Windows 10 / macOS 12+,16GB内存,50GB空闲空间模型文件约18GB,vLLM推理需足够内存缓存
手机Android 7.0+,已解锁开发者选项必须开启USB调试,否则ADB无法通信
数据线支持数据传输的USB-C或Micro-USB线(非仅充电线)WiFi连接可选,但首次调试强烈建议USB直连

注意:iPhone 不支持(ADB为安卓专用协议);模拟器(如MuMu、雷电)可替代真机,但部分APP检测虚拟环境会闪退,推荐优先用真机。

2.2 软件安装:只装这3个,别多装

2.2.1 Python 3.10+(必须)
  • Windows:去 python.org 下载最新版,安装时务必勾选 “Add Python to PATH”
  • macOS:终端执行brew install python@3.10(没装Homebrew先装:/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
  • 验证:打开命令行,输入python --version,显示Python 3.10.x或更高即成功。
2.2.2 ADB 工具(必须)

这是连接电脑和手机的“桥梁”,不是APP,是命令行工具:

  • 下载地址:Android Platform Tools 官方页
  • 解压后得到adb.exe(Windows)或adb(Mac/Linux),记住这个文件夹路径,比如D:\platform-tools
  • 环境变量配置(关键!否则命令行认不出 adb)
    • Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你的ADB路径
    • Mac:终端执行echo 'export PATH=$PATH:/Users/你的用户名/platform-tools' >> ~/.zshrc && source ~/.zshrc
  • 验证:命令行输入adb version,出现版本号(如Android Debug Bridge version 1.0.41)即成功。
2.2.3 手机端设置(3步,2分钟)
  1. 开开发者模式:手机“设置”→“关于手机”→连续点击“版本号”7次→提示“您已处于开发者模式”
  2. 开USB调试:“设置”→“系统”→“开发者选项”→打开“USB调试”(弹窗点“确定”)
  3. 装ADB Keyboard(中文输入关键!)
    • 下载 ADBKeyboard.apk(GitHub官方发布)
    • 电脑命令行进入APK所在目录,执行adb install ADBKeyboard.apk
    • 手机“设置”→“系统”→“语言和输入法”→“虚拟键盘”→启用“ADB Keyboard”并设为默认

此时手机顶部状态栏应显示“USB调试已启用”,且输入法切换时能看到“ADB Keyboard”。


3. 部署核心四步:从克隆代码到第一次运行

3.1 下载并安装 Open-AutoGLM 控制端

这是你和AI交互的“遥控器”,纯Python项目,无编译:

# 1. 克隆代码(国内用户建议加 --depth 1 加速) git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # Mac/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(注意:requirements.txt 已适配国内源) pip install -r requirements.txt pip install -e .

成功标志:命令行无报错,且python -c "import phone_agent"不报错。

3.2 下载并启动 AI 模型服务(核心!)

模型名为AutoGLM-Phone-9B,是一个9B参数的多模态视觉语言模型,需约18GB空间:

方式一:国内用户(推荐,ModelScope镜像,10分钟下载完)
# 1. 克隆模型(自动走阿里云加速) git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git # 2. 安装vLLM推理引擎(高性能,支持多模态) pip install vllm # 3. 启动服务(Linux/Mac) python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model ./AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --limit-mm-per-prompt '{"image":10}'
方式二:Windows用户简化版(无多模态高级参数,基础可用)
python -m vllm.entrypoints.openai.api_server ^ --served-model-name autoglm-phone-9b ^ --model .\AutoGLM-Phone-9B ^ --port 8000 ^ --max-model-len 25480

启动成功标志:终端输出Uvicorn running on http://0.0.0.0:8000,且浏览器访问http://localhost:8000/docs能看到OpenAI兼容API文档。

提示:首次启动会加载模型到显存,需30-60秒。若报错CUDA out of memory,请关闭其他占用显存的程序,或添加--gpu-memory-utilization 0.9参数。

3.3 连接你的手机(USB or WiFi)

确保手机已通过USB连接电脑,并在手机上点了“允许USB调试”。

# 查看是否识别到设备 adb devices

正常输出:

List of devices attached ABC123456789 device

如果显示unauthorized,请检查手机弹窗是否点了“允许”;如果为空,请重插USB线或换接口。

WiFi远程连接(进阶,适合桌面固定使用)
# 1. 先用USB连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,用WiFi连接(手机和电脑需在同一局域网) adb connect 192.168.1.100:5555 # 替换为手机实际IP(在手机“无线调试”中查看)

验证:adb devices应显示192.168.1.100:5555 device

3.4 运行第一个指令:让AI打开“设置”

现在,一切就绪。回到Open-AutoGLM目录,执行:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

你会看到类似输出:

💭 思考过程: 当前在手机桌面,需要找到“设置”应用图标并点击 执行动作: {"action": "Launch", "app": "com.android.settings"} 动作完成:已启动设置应用

同时,你的手机屏幕会自动跳转到“设置”界面——恭喜,你的专属贾维斯已上线!

如果卡在“思考中”超30秒:检查模型服务是否运行、ADB是否连通、手机是否亮屏未锁屏。


4. 实战技巧:3类高频任务,直接复制粘贴

4.1 生活服务类(点外卖、订车、查票)

# 美团订餐(自动搜索+下单) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开美团,搜索‘老北京炸酱面’,选择评分最高的店,下单一份" # 滴滴打车(填目的地) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开滴滴出行,输入目的地‘北京南站’,呼叫快车" # 12306购票(查余票) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开12306,查询今天北京到上海的高铁余票"

技巧:描述越具体越好,比如“评分最高”“今天”“北京到上海”,AI能更好理解意图。

4.2 社交娱乐类(发消息、刷内容、关注)

# 微信发消息(支持联系人名) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开微信,给张三发送‘周末一起吃饭?’" # 抖音关注用户(支持ID) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开抖音,搜索用户‘dycwo11nt61d’,进入主页并关注" # 小红书点赞笔记(支持关键词) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开小红书,搜索‘咖啡拉花教程’,点赞第一条笔记"

注意:首次对新联系人发消息,AI会自动处理微信的“搜索联系人→点击→输入框→发送”全流程。

4.3 效率工具类(批量操作、跨APP协同)

# 批量保存图片(从微信聊天中) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开微信,进入‘工作群’,找到昨天发的3张产品图,全部保存到相册" # 对比电商价格(跨平台) python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "分别在淘宝、京东、拼多多搜索‘AirPods Pro 2代’,记录最低价和销量"

进阶提示:这类任务可能超过单次推理步数限制(默认100步),可在命令中加--max-steps 200提升上限。


5. 安全与接管:敏感操作绝不越界

AI再强大,支付、删除、授权等操作也必须由你拍板——这是 Open-AutoGLM 的硬性安全设计。

5.1 自动触发人工确认的场景

  • 任何涉及“支付”“付款”“充值”的指令
  • 删除APP、清除聊天记录、格式化存储等危险操作
  • 访问短信、通讯录、相册等隐私权限

当AI准备执行时,会暂停并打印:

需要人工确认:即将支付28.5元,是否继续?(y/n):

你输入y才继续,输入n则中止。整个过程不可绕过。

5.2 自定义确认方式(开发者可扩展)

修改main.py或写独立脚本,用函数接管确认逻辑:

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig def my_confirm(msg): print(f"\n 安全提示:{msg}") return input("确认执行?(yes/no): ").strip().lower() in ["y", "yes"] agent = PhoneAgent( model_config=ModelConfig(base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b"), confirmation_callback=my_confirm ) agent.run("打开美团订一份外卖")

5.3 隐私保护:所有数据,留在本地

  • 屏幕截图:只在本地内存处理,不上传任何服务器
  • 指令文本:仅传给本地运行的vLLM模型,不经过第三方API
  • ADB指令:直接发送到你的手机,无中间代理

你可以完全断开网络运行整套系统——这才是真正属于你的AI助理。


6. 排查常见问题:90%的问题,3步解决

6.1 ADB连接失败

现象原因解决方案
adb devices无输出USB调试未开启,或数据线仅充电重开开发者选项→USB调试;换线或USB口
显示unauthorized手机未点“允许”拔插USB,看手机弹窗,点“允许”
error: device offlineADB服务异常命令行执行adb kill-server && adb start-server

6.2 模型服务启动失败

现象原因解决方案
OSError: CUDA error显存不足或驱动不匹配关闭其他程序;升级NVIDIA驱动;加--device cpu强制CPU运行
ModuleNotFoundError: vllmvLLM未正确安装pip uninstall vllm && pip install vllm --no-cache-dir
Connection refused端口被占用--port 8001换端口;或lsof -i :8000查进程杀掉

6.3 AI操作失败或卡住

现象原因解决方案
一直“思考中”,无动作手机锁屏、息屏或APP未响应保持屏幕常亮;手动打开目标APP再试
点击错位置,或输错字截图模糊、界面元素识别不准清理手机后台APP;降低屏幕分辨率(设置→显示→分辨率调至“高清”)
中文输入不了ADB Keyboard未启用手机设置→语言和输入法→确保ADB Keyboard为默认且已启用

终极方案:遇到问题,先执行adb shell input keyevent KEYCODE_HOME回到桌面,再重试指令。


7. 总结:你已掌握的,远不止一个工具

通过这篇教程,你已完成:

  • 环境筑基:Python、ADB、开发者模式的完整配置,从此告别“环境问题”;
  • 模型驾驭:从下载18GB模型到启动vLLM服务,理解多模态推理的本地化实现;
  • 设备贯通:USB/WiFi双模式连接手机,掌握ADB这一安卓自动化基石;
  • 指令实战:覆盖生活、社交、效率三大场景的数十条可复用命令;
  • 安全掌控:理解敏感操作确认机制,建立对AI行为的完全信任边界。

你部署的不是一个Demo,而是一个可成长的AI助理——今天它能帮你点外卖,明天你就能让它自动整理微信聊天记录、监控竞品APP更新、甚至编写测试用例。它的能力上限,取决于你的想象力。

下一步,试试这些挑战:
🔹 用Python API写一个“每日早报”脚本(自动抓取新闻APP头条,语音播报)
🔹 给父母手机装上,教他们用语音指令查公交、挂号、看视频
🔹 在公司内网部署,让AI自动巡检内部APP的UI兼容性

技术的意义,从来不是炫技,而是让每个人,都拥有属于自己的“贾维斯”。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/14 1:09:00

快速理解T触发器:核心要点图解说明

以下是对您提供的博文《快速理解T触发器:核心要点图解与工程实践深度解析》的 全面润色与专业重构版本 。本次优化严格遵循您的全部要求: ✅ 彻底去除AI痕迹,语言自然、有“人味”——像一位深耕数字电路十年的IC验证工程师在技术博客中娓娓道来; ✅ 摒弃刻板结构(无“…

作者头像 李华
网站建设 2026/6/10 15:43:57

无需代码!用CAM++镜像完成语音特征提取全过程

无需代码!用CAM镜像完成语音特征提取全过程 你是否试过为一段语音提取声纹特征,却卡在环境配置、模型加载、代码调试上?是否翻遍GitHub文档,发现要装PyTorch、torchaudio、kaldi、espnet,还要编译C扩展,最…

作者头像 李华
网站建设 2026/6/10 4:51:50

声音也能‘验明正身’?CAM++技术原理浅析

声音也能‘验明正身’?CAM技术原理浅析 1. 什么是“声音身份证”:从直觉到技术本质 你有没有过这样的体验——电话里刚听出是老朋友的声音,还没等对方开口报名字,你就脱口而出:“哎哟,是你啊!…

作者头像 李华
网站建设 2026/5/22 9:49:17

一文带你了解HVV实战攻防演练之红队攻击,零基础入门到精通,收藏这一篇就够了! (1)

00 什么是红队 红队,一般是指网络实战攻防演习中的攻击一方。 红队一般会针对目标系统、人员、软件、硬件和设备同时执行的多角度、混合、对抗性的模拟攻击;通过实现系统提权、控制业务、获取数据等目标,来发现系统、技术、人员和基础架构中…

作者头像 李华
网站建设 2026/6/12 19:02:45

Qwen3-0.6B本地部署避坑指南,新手必看少走弯路

Qwen3-0.6B本地部署避坑指南,新手必看少走弯路 你是不是也遇到过这些情况: 下载完Qwen3-0.6B镜像,一启动Jupyter就报错; 复制粘贴官方LangChain调用代码,却提示ConnectionRefusedError或Invalid URL; 想换…

作者头像 李华
网站建设 2026/6/15 12:21:12

Qwen对话回复冷淡?Chat Template优化实战案例

Qwen对话回复冷淡?Chat Template优化实战案例 1. 问题来了:为什么Qwen的回复总像“AI客服”? 你有没有试过用Qwen1.5-0.5B做对话服务,输入一句“今天加班到十点,好累啊”,结果它回:“辛苦了&a…

作者头像 李华