news 2026/5/1 5:02:06

无需显卡!实战 Open-AutoGLM + 智谱 API:让 AI 替我玩手机

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
无需显卡!实战 Open-AutoGLM + 智谱 API:让 AI 替我玩手机

Open-AutoGLM仓库地址
以及
我自己的github账号!欢迎交流

前言:当大模型有了“手”

  • 痛点:现在的语音助手(Siri, 小爱)只能做简单的系统指令,无法深入第三方 App(比如“帮我点一杯瑞幸拿铁”)。
  • 引入: Open-AutoGLM不是简单的脚本,而是基于视觉语言模型(VLM),像人眼一样看屏幕,像人手一样点击。
  • 本文目的:分享如何使用普通电脑 + 安卓手机,配合 智谱 BigModel API,低成本体验最新的 Phone Agent 技术。

使用 API 模式

  • 门槛低,对硬件要求低,不需要本地部署
  • 性价比高,智谱对新用户提供充足免费tokens

API 获取

选择智谱bigmodel
官网地址
正常注册即可

准备工作

  • 硬件 安卓手机(测试使用的是vivo S20),windows电脑
  • 环境 Python 3.10,建议隔离环境,使用conda虚拟环境
  • 关键工具 ADB 配置,ADB keyboard下载。

ADB 配置

手机打开开发者模式和USB调试。这个步骤参考Readme即可,没有什么问题。

开发者模式启用:通常启用方法是,找到 设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示“开发者模式已启用”。不同手机会有些许差别,如果找不到,可以上网搜索一下教程。
USB 调试启用:启用开发者模式之后,会出现 设置-开发者选项-USB 调试,勾选启用
部分机型在设置开发者选项以后, 可能需要重启设备才能生效. 可以测试一下: 将手机用USB数据线连接到电脑后, adb devices 查看是否有设备信息, 如果没有说明连接失败.

选择一根比较稳定的USB线连接手机和电脑!
/(ㄒoㄒ)/~~
下载官方 ADB 安装包 安装包,解压到自定义路径,这个路径要记得,马上要用。

windows配置环境变量
参考这个链接 参考链接
在系统环境变量的path上新增后,重新打开系统的命令行,可以正常启动。

输入以下命令可以看到手机设备,说明配置完成。

adb devices

ADB Keyboard 安装

安装链接
这个链接是一个.apk 的文件,在命令行工具中,输入如下命令:

adbinstall-r apk的下载地址,比如“ C:\Users\YourName\Downloads\ADBKeyboard.apk”

回车显示 success,说明安装成功

回到手机,设置-输入法,会看到新的ADK Keyboard 选项,选中即可。

部署核心步骤

项目克隆

在虚拟环境终端运行

gitclone https://github.com/zai-org/Open-AutoGLM.git pipinstall-r requirements.txt

申请 API

官网地址


复制保存新的api key

使用示例
# 使用智谱 BigModelpython main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model"autoglm-phone"--apikey"这里输入上面复制的API key,双引号也要保留""打开美团搜索附近的火锅店"

验证模型部署

可能遇到的错误

这里其实遇到了一个报错,该项目是在linux/mac或者标准开发环境下写的,文件保存格式是UTF-8,但是windows默认会用GBK去读,会报错。
使用下面命令来用check_deployment_cn.py脚本测试模型部署是否正确时,会有报错。

python scripts/check_deployment_cn.py --base-url https://open.bigmodel.cn/api/paas/v4 --model"aut oglm-phone"--apikey"这是我的正确的API ,不用管这里"

报错信息

UnicodeDecodeError:'gbk'codec can't decode byte 0xb4inposition80: illegal multibyte sequence

修改方式是
找到check_deployment_cn.py文件中这部分,添加上encoding='utf-8'

withopen(args.messages_file,encoding='utf-8')asf:messages=json.load(f)

验证结果类似于这样的思维链,说明配置成功。

交互模式

由于使用的是云端API,不需要找端口(如果自己部署的模型,可以参考Readme)
使用云端API,启动交互模式的命令为

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model"autoglm-phone"--apikey"你的_API_KEY_粘贴在这里"

交互模式就是,不同于上面验证部分,直接跑完关闭,而是有一个提示符 Enter your task: 来等待用户输入

之后就可以正常使用了!

工作原理

简单解释它是怎么工作的:

  • 截图:脚本把手机当前屏幕截图。
  • 分析:发给智谱 BigModel,模型分析 UI 控件坐标(x, y)。
  • 决策:模型决定下一步是点击、滑动还是输入。
  • 执行:通过 ADB 发送指令给手机。

实测结果

这里附上一个我的实测结果:








最终结果

Result: 已经为您找到了一个完整的南京两天一夜旅游攻略!根据矿泉水大军的分享 ,为您制定以下攻略: ## 📍 **Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙** Result: 已经为您找到了一个完整的南京两天一夜旅游攻略!根据矿泉水大军的分享 ,为您制定以下攻略: ## 📍 **Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙** ,为您制定以下攻略: ## 📍 **Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙** ### 沿途推荐: - 梧桐大道:欣赏秋天的梧桐树美景 - 夫子庙:品尝李百蟹蟹黄面(蟹全宴)、金陵家宴传统南京菜、晚园江南火锅等美 食 ### 沿途推荐: - 梧桐大道:欣赏秋天的梧桐树美景 - 夫子庙:品尝李百蟹蟹黄面(蟹全宴)、金陵家宴传统南京菜、晚园江南火锅等美 食 - 夫子庙:品尝李百蟹蟹黄面(蟹全宴)、金陵家宴传统南京菜、晚园江南火锅等美 食 ## 📍 **Day2: 回龙纪念馆 → 古鸡鸣寺 → 玄武湖 → 先锋书店 → 中华门 → 老门东** ### 沿途推荐: - 玄武湖:可乘船或环湖骑行 ## 📍 **Day2: 回龙纪念馆 → 古鸡鸣寺 → 玄武湖 → 先锋书店 → 中华门 → 老门东** ### 沿途推荐: - 玄武湖:可乘船或环湖骑行 ### 沿途推荐: - 玄武湖:可乘船或环湖骑行 - 先锋书店:打卡网红书店 - 老门东:品尝秦淮八绝、桂花糕等特色小吃 - 先锋书店:打卡网红书店 - 老门东:品尝秦淮八绝、桂花糕等特色小吃 ## 🏨 **住宿建议** ## 🏨 **住宿建议** - 玄武湖附近(地铁线路交汇处):出行便利,交通便利 - 玄武湖附近(地铁线路交汇处):出行便利,交通便利 ## 🍜 **美食推荐** ## 🍜 **美食推荐** 1. **李百蟹蟹黄面夫子庙总店** - 蟹全宴好吃,四种浇头都很香 1. **李百蟹蟹黄面夫子庙总店** - 蟹全宴好吃,四种浇头都很香 2. **金陵家宴传统南京菜** - 地道金陵烤鸭,秘制卤汁薄脆的鸭皮+细嫩多汁的鸭肉 2. **金陵家宴传统南京菜** - 地道金陵烤鸭,秘制卤汁薄脆的鸭皮+细嫩多汁的鸭肉 3. **晚园江南火锅** - 露台位置,欣赏夫子庙美景 3. **晚园江南火锅** - 露台位置,欣赏夫子庙美景 4. **青花瓷盖碗菜** - 九宫格荤素丰富 5. **文德食府** - 汉服拍照,松鼠桂鱼、酸甜适中 5. **文德食府** - 汉服拍照,松鼠桂鱼、酸甜适中 6. **秦淮八绝** - 小鸟胃推荐,一站式品尝南京特色小吃 7. **桂园春桂花糕** - 必吃,糕体松软绵密,不甜 这个攻略涵盖了南京的经典景点和小众打卡地,非常适合周末两天一夜的行程!祝您旅途愉快!🎉

小结

整体而言,效果很让我惊喜。虽然延迟略微有点高,不过应该是调用API的问题,在接受范围内。
由于时间仓促,只是简单尝试了一下,个人认为可玩性和扩展性都很高!
欢迎在评论区讨论,博主也会继续探索,尝试修改代码或提示词,以及本地部署,进一步加深理解的~
(❤ ω ❤)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 5:00:23

干翻Dubbo系列第一篇:Dubbo是什么?

一:什么是Dubbo1:Dubbo的背景2018年阿里巴巴把这个框架捐献给了 Apache 基金会,正式更名为Apache Dubbo最新版本为Dubbo3.2。Apache Dubbo 是一款易用、高性能的 WEB 和 RPC 框架,同时为构建企业级微服务提供服务发现、流量治理、…

作者头像 李华
网站建设 2026/5/1 4:59:55

巴菲特的投资原则与资本保护

巴菲特的投资原则与资本保护关键词:巴菲特、投资原则、资本保护、价值投资、安全边际摘要:本文深入探讨了巴菲特的投资原则以及如何通过这些原则实现资本保护。首先介绍了研究的背景、目的、预期读者和文档结构等信息。接着阐述了巴菲特投资原则的核心概…

作者头像 李华
网站建设 2026/5/1 5:00:00

从迷茫到精英:找到属于你的网络安全之路

一、为什么“自学”难以成就真正的网络安全工程师? 网络安全,从来不是一门可以“闭门造车”的学问。真正的攻防博弈,发生在真实的网络战场,而非虚拟的演示环境。一名合格的网络安全工程师,需要的是: 真实的…

作者头像 李华
网站建设 2026/4/27 13:19:03

Wan2.2-T2V-A14B能否生成符合人类视觉习惯的景深效果

Wan2.2-T2V-A14B能否生成符合人类视觉习惯的景深效果 在影视制作、广告创意乃至短视频内容爆发的今天,观众对视频“真实感”的要求早已超越了画面清晰和动作连贯。一个镜头是否具备自然的空间层次——比如前景人物清晰锐利,背景城市灯光柔和弥散成光斑—…

作者头像 李华
网站建设 2026/4/27 18:28:01

金融机构如何落地智能体?16个头部企业Agent最佳实践

文章介绍了金融业智能体(AI Agent)的定义、特征及应用进展。智能体具有自主性和学习能力,正被银行、证券、保险等金融机构广泛采纳。文章分析了智能体在金融领域的应用场景及面临的挑战,并提供了多个金融机构的智能体应用案例,为金融业智能体…

作者头像 李华
网站建设 2026/4/30 1:54:38

基于大数据的校园美食推荐系统的设计与实现scrapy+hadoop

文章目录项目简介系统截图大数据系统开发流程主要运用技术介绍参考文献结论源码文档获取定制开发/同行可拿货,招校园代理 :文章底部获取博主联系方式!项目简介 本系统基于校园餐饮场景需求,采用模块化设计理念构建了完整的用户端和管理端功能…

作者头像 李华