news 2026/5/1 6:08:25

Open-AutoGLM实战:一句话让AI帮你刷小红书

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM实战:一句话让AI帮你刷小红书

Open-AutoGLM实战:一句话让AI帮你刷小红书

你有没有过这样的时刻:想在小红书搜“上海周末咖啡馆推荐”,但手正忙着切菜、哄娃,或者干脆懒得点开APP?又或者,你刚收藏了10篇穿搭笔记,却没时间逐条整理——这时候,如果手机能听懂你一句话就自动完成操作,是不是像多了个随叫随到的数字助理?

Open-AutoGLM 就是这样一个真实可用的工具。它不是概念演示,也不是云端黑盒,而是一个真正跑在你本地电脑上、通过 ADB 控制你真机的 AI 手机智能体。你只需说一句“打开小红书搜美食”,它就能看懂当前屏幕、理解你的意图、规划点击路径、输入关键词、滑动浏览结果——整个过程无需你碰一下手机。

这不是科幻,是今天就能搭起来的现实。本文不讲大道理,不堆术语,只带你从零开始,用最直白的方式完成部署、连上手机、跑通第一条指令,并真正用它刷一次小红书。全程小白友好,哪怕你上次写代码还是在大学实验课,也能照着做成功。


1. 它到底是什么:一个能“看”会“想”还“动手”的AI

1.1 不是普通聊天机器人,而是手机上的“眼睛+大脑+手指”

很多AI项目只做文本生成,而 Open-AutoGLM 的特别之处在于它的三层能力闭环:

  • 眼睛:每秒自动截取手机屏幕,用视觉语言模型(VLM)识别界面上的文字、图标、按钮位置和布局关系。它不是靠猜,而是真的“看见”了“搜索框”在右上角、“小红书”App 图标在第一屏第三行。

  • 大脑:把你的自然语言指令(比如“帮我找最近3天发过露营笔记的博主”)和当前屏幕画面一起输入模型,让它推理出下一步该点哪里、输什么、滑多远。这个过程叫“多步任务规划”,不是简单映射,而是带上下文的思考。

  • 手指:通过 ADB(Android Debug Bridge)向手机发送精准指令——模拟点击坐标、长按、滑动、输入中文、返回上一页。所有动作都像真人操作一样可追溯、可暂停、可接管。

这三者合在一起,才构成了一个能真正“替你用手机”的智能体。

1.2 和其他AI手机方案的关键区别

对比项Open-AutoGLM(本方案)云手机+网页自动化纯语音助手(如小爱同学)
控制方式本地电脑控制真机,全程离线处理屏幕图像远程虚拟机运行,依赖网络和服务器仅语音唤醒+调用系统API,无法操作第三方App
隐私性所有截图、推理、操作都在你本地完成,不上传任何画面或指令屏幕画面、操作日志均经由云端,存在数据外泄风险指令可能上传至厂商服务器
灵活性支持任意安卓App,包括未开放API的小红书、抖音、闲鱼等受限于云手机预装环境和权限,难适配新版本App仅支持系统级功能(打电话、设闹钟),无法进入小红书内部操作
上手门槛需配置ADB和Python,但教程已拆解为傻瓜步骤无需配置,但需付费订阅,且响应延迟明显零配置,但功能极其有限

一句话总结:Open-AutoGLM 是目前少有的、能让普通人真正拥有“可定制、可掌控、可审计”的AI手机助理的开源方案。


2. 准备工作:三样东西,30分钟搞定

别被“AI”“多模态”吓住——实际要准备的只有三类东西:一台能联网的电脑、一部安卓手机、和一点耐心。我们跳过所有冗余环节,直奔核心。

2.1 你的设备清单(真实可行版)

类别最低要求为什么重要小贴士
电脑Windows 10 / macOS Monterey,8GB内存,50GB空闲空间模型文件约18GB,推理需要内存缓存截图和中间状态Mac M1/M2芯片用户注意:vLLM暂不原生支持Apple Silicon,建议用Rosetta模式运行或改用CPU推理(稍慢但可用)
手机Android 7.0+,已开启USB调试,电量>30%旧机型也能用,关键是开启开发者选项如果找不到“关于手机”,试试在“设置”里搜“版本号”
连接方式USB数据线(首选)或同一WiFi下的稳定网络USB最稳,WiFi适合不想插线的场景WiFi连接前务必先用USB连一次,执行adb tcpip 5555才能开启无线调试

不需要显卡,不需要服务器,不需要注册账号。所有代码和模型都来自公开仓库,国内用户还能用ModelScope镜像加速下载。

2.2 四步安装:Python、ADB、开发者模式、ADB Keyboard

我们把安装压缩成四个明确动作,每个动作都有验证方式,失败立刻可知。

第一步:装Python(3分钟)
  • 访问 python.org/downloads,下载Python 3.10 或 3.11(不要装3.12,部分依赖尚未兼容)
  • 安装时务必勾选 “Add Python to PATH”(Windows)或按Mac提示完成安装
  • 验证:打开命令行(Windows按Win+R输入cmd,Mac打开终端),输入:
    python --version
    显示Python 3.10.x即成功。
第二步:装ADB(5分钟)
  • 去 developer.android.com/platform-tools 下载对应系统的platform-tools
  • 解压到一个简单路径,比如C:\adb(Windows)或~/adb(Mac)
  • 配置环境变量(关键!)
    • Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入C:\adb
    • Mac:终端执行echo 'export PATH=$PATH:~/adb' >> ~/.zshrc && source ~/.zshrc
  • 验证:
    adb version
    显示Android Debug Bridge version 1.0.41类似字样即成功。
第三步:开手机开发者模式(2分钟)
  • 设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”
  • 返回设置 → 系统 → 开发者选项 → 打开“USB调试”
  • 此时手机会弹窗问“允许USB调试吗?”——勾选“始终允许”,再点“确定”
第四步:装ADB Keyboard(3分钟)

这是让AI能输入中文的关键。没有它,AI只能点、不能打字。

  • 下载ADBKeyboard.apk(GitHub搜索adb-keyboard或直接用 这个链接)
  • 电脑命令行进入APK所在目录,执行:
    adb install ADBKeyboard.apk
  • 手机设置 → 系统 → 语言和输入法 → 虚拟键盘 → 启用“ADB Keyboard”
  • 最后一步:长按微信/短信输入框 → 选择输入法 → 切换为“ADB Keyboard”

全部完成后,在命令行输入adb devices,应看到类似:

List of devices attached ZY322FDQ67 device

出现device字样,说明手机已成功接入。


3. 部署核心:三行命令,启动你的AI助理

现在,你的电脑和手机已连通,接下来是让AI“上岗”的三步。

3.1 下载并安装Open-AutoGLM项目

打开命令行,依次执行(复制粘贴即可):

# 克隆项目(约2MB,秒下) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖(会自动下载requests、Pillow、adbutils等) pip install -r requirements.txt pip install -e .

验证:执行python -c "from phone_agent import PhoneAgent; print('OK')",无报错即成功。

3.2 下载模型(国内用户请用此法提速)

模型文件约18GB,国际源慢,强烈推荐用ModelScope国内镜像

# 创建模型存放目录 mkdir models # 使用ModelScope镜像(国内用户,5–15分钟) git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git models/AutoGLM-Phone-9B

注意:不要用git lfs下载Hugging Face源,国内常中断。ModelScope镜像已预打包,直接克隆即得完整模型。

3.3 启动模型服务(一行命令)

我们用轻量级方式启动,不涉及复杂Docker或GPU参数:

# Linux/macOS用户 python3 -m vllm.entrypoints.openai.api_server \ --model ./models/AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string
:: Windows用户(保存为start_model.bat双击运行) python -m vllm.entrypoints.openai.api_server --model ./models/AutoGLM-Phone-9B --served-model-name autoglm-phone-9b --port 8000 --max-model-len 25480

等待约1–2分钟,看到终端输出:

INFO: Uvicorn running on http://0.0.0.0:8000

表示模型服务已就绪,正在本地http://localhost:8000提供API。


4. 第一次实战:让AI打开小红书,搜“咖啡馆”

现在,一切就绪。我们来执行第一条真正有用的指令——不是“打开设置”,而是“刷小红书”。

4.1 命令行一键运行(推荐新手)

确保你的手机已通过USB连接且显示为device,在 Open-AutoGLM 目录下执行:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索上海静安区的精品咖啡馆"

你会看到类似这样的实时输出:

📸 正在截取屏幕... 🧠 正在分析界面:检测到桌面图标,小红书图标位于第2行第1列 执行动作: {"action": "Click", "x": 210, "y": 850} 📸 正在截取屏幕... 🧠 正在分析界面:小红书首页加载中,顶部有搜索框 执行动作: {"action": "Click", "x": 540, "y": 120} 执行动作: {"action": "Type", "text": "上海静安区的精品咖啡馆"} 执行动作: {"action": "PressEnter"} 任务完成:已展示搜索结果,共找到24条笔记

几秒钟后,你的手机屏幕上就会真实出现小红书的搜索结果页——AI不仅点了App,还精准点击了搜索框、输入了中文、按了回车。

4.2 为什么它能准确输入中文?揭秘ADB Keyboard的作用

普通ADBinput text命令不支持中文,但 ADB Keyboard 是一个特殊输入法,它把AI生成的文本转为手机可识别的按键序列(如“上”=u,“海”=h)。Open-AutoGLM 在调用Type动作时,会自动切换输入法为 ADB Keyboard,输入完毕再切回原输入法——整个过程对用户完全透明。

你可以自己验证:在执行上述命令前,手动把手机输入法切为“百度输入法”,命令运行后,你会发现输入法自动变成了“ADB Keyboard”,输入完又切回去了。

4.3 更实用的小红书指令模板(直接复制使用)

别再凭空想指令,这里给你整理好高频场景的“人话模板”,替换关键词就能用:

  • 打开小红书,搜索[地点][品类],按点赞数排序
    → 例:“打开小红书,搜索杭州西湖边的茶馆,按点赞数排序”

  • 打开小红书,进入用户[用户名]的主页,保存最新3篇图文笔记
    → 例:“打开小红书,进入用户@咖啡研究所的主页,保存最新3篇图文笔记”

  • 打开小红书,搜索[关键词],筛选发布时间为最近7天的笔记
    → 例:“打开小红书,搜索露营装备,筛选发布时间为最近7天的笔记”

  • 打开小红书,找到标题含[关键词]的笔记,点赞并收藏
    → 例:“打开小红书,找到标题含‘免煮咖啡’的笔记,点赞并收藏”

这些指令之所以有效,是因为 AutoGLM-Phone 模型在训练时就见过大量小红书UI截图和对应操作描述,它对“搜索框”“点赞心形图标”“用户头像位置”有强空间感知能力。


5. 进阶技巧:让AI更懂你、更安全、更省心

部署成功只是开始。下面这些技巧,能让你从小白变成高效使用者。

5.1 敏感操作必须人工确认(防误触支付/删号)

AI再聪明,也不能替你做决定。Open-AutoGLM 内置了安全闸门:当检测到“支付”“删除”“注销”“授权通讯录”等高危动作时,会自动暂停并弹出确认提示。

例如,你输入:

python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开小红书,给博主@旅行家小满打赏10元"

AI执行到支付页时会停住,终端输出:

安全拦截:检测到支付动作(金额10元),需人工确认 是否继续?(y/n):

你敲n就终止,敲y才继续。这个机制默认开启,无需额外配置。

5.2 WiFi无线控制:摆脱数据线束缚

如果你的手机和电脑在同一WiFi下,可以彻底摆脱USB线:

  1. 先用USB连一次,执行:
    adb tcpip 5555
  2. 拔掉USB线,查看手机WiFi IP(设置→WiFi→点击当前网络→IP地址),如192.168.1.105
  3. 电脑执行:
    adb connect 192.168.1.105:5555 adb devices # 应显示 device
  4. 后续所有命令加上--device-id 192.168.1.105:5555

从此,你躺在沙发上,手机放在茶几上,AI照样能帮你刷小红书。

5.3 自定义常用指令,做成快捷命令

每次输一长串太麻烦?把它变成一个.bat或.sh脚本:

# save_as_coffee.sh(Mac/Linux) #!/bin/bash python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索上海静安区的精品咖啡馆,保存前5条笔记封面"

赋予执行权限后,双击或运行./save_as_coffee.sh即可。


6. 常见问题:90%的失败,都出在这三个地方

根据社区高频反馈,绝大多数问题集中在以下三点。对照自查,5分钟内解决。

现象最可能原因一招解决
adb devices显示unauthorized或空白手机未授权USB调试拔掉数据线重连,手机弹窗点“允许”,勾选“始终允许”
模型启动报错OSError: libcudnn.so not found未安装CUDA或版本不匹配改用CPU模式:在启动命令末尾加--device cpu
AI点了错误位置,或一直循环点击手机屏幕分辨率缩放比例非100%设置→显示→字体与样式→显示大小→调为“默认”或“100%”
输入中文时乱码或无反应ADB Keyboard未启用或未设为默认手机设置→语言和输入法→确保“ADB Keyboard”已启用且为默认输入法

如果以上都不行,去 GitHub Issues 搜关键词,99%的问题已有解决方案。


7. 总结:你刚刚掌握了一项未来技能

回顾这一路,你其实只做了几件事:装了两个工具(Python、ADB),开了一个开关(开发者模式),跑了三行命令,然后说了一句话——结果,你的手机真的听懂了、看懂了、动手了。

这不是玩具,而是生产力拐点。当你能把“搜咖啡馆”“整理收藏夹”“监控竞品动态”这些重复操作交给AI,每天节省的15分钟,一年就是91小时。而这91小时,足够你学一门新语言、读20本书、或者陪孩子多玩几次积木。

Open-AutoGLM 的价值,不在于它多炫酷,而在于它足够简单、足够透明、足够属于你。没有黑箱API,没有订阅费,没有数据上传——你掌控全部流程,也拥有全部成果。

下一步,试试这些:

  • 用它自动帮你收集小红书上的装修灵感图,存到本地文件夹
  • 让它每天早上8点打开小红书,抓取“今日热榜”前10名标题,发到你的微信
  • 把它和你的NAS结合,实现“手机截图→AI识别→自动归档”

技术从不遥远,它就在你敲下回车的那一刻,开始为你服务。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 9:19:51

3大核心优势!开源CAD解决方案助力专业图纸设计

3大核心优势!开源CAD解决方案助力专业图纸设计 【免费下载链接】LibreCAD LibreCAD is a cross-platform 2D CAD program written in C14 using the Qt framework. It can read DXF and DWG files and can write DXF, PDF and SVG files. The user interface is hig…

作者头像 李华
网站建设 2026/4/23 10:45:01

Sambert显存监控工具:GPU使用率实时查看部署教程

Sambert显存监控工具:GPU使用率实时查看部署教程 1. 为什么需要实时监控Sambert语音合成的GPU使用情况 当你在本地或服务器上运行Sambert-HiFiGAN这类高质量中文语音合成模型时,最常遇到的问题不是“能不能跑起来”,而是“跑着跑着就卡住了…

作者头像 李华
网站建设 2026/4/29 1:34:41

Alfred时间戳工具:提升日常工作效率的实用插件

Alfred时间戳工具:提升日常工作效率的实用插件 【免费下载链接】Alfred-Workflows-TimeStamp 转换时间与时间戳 项目地址: https://gitcode.com/gh_mirrors/al/Alfred-Workflows-TimeStamp 工具概述与安装指南 什么是Alfred时间戳工具 Alfred时间戳工具是一…

作者头像 李华
网站建设 2026/4/18 0:10:50

革新机械键盘体验:VIA开源配置工具完全指南

革新机械键盘体验:VIA开源配置工具完全指南 【免费下载链接】app 项目地址: https://gitcode.com/gh_mirrors/app8/app 还在为机械键盘的复杂配置而头疼吗?VIA开源键盘配置工具让每个人都能轻松定制QMK固件键盘,无需编程知识即可完成…

作者头像 李华
网站建设 2026/4/20 7:42:33

BepInEx实战指南:从入门到精通游戏插件开发

BepInEx实战指南:从入门到精通游戏插件开发 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx是Unity游戏和.NET框架游戏的插件开发框架,支持Unity Mo…

作者头像 李华
网站建设 2026/4/28 21:21:46

iOS降级全方位指南:使用LeetDown工具安全降级A6/A7设备

iOS降级全方位指南:使用LeetDown工具安全降级A6/A7设备 【免费下载链接】LeetDown a GUI macOS Downgrade Tool for A6 and A7 iDevices 项目地址: https://gitcode.com/gh_mirrors/le/LeetDown LeetDown是一款专为macOS打造的图形界面iOS固件降级工具&#…

作者头像 李华