Open-AutoGLM生产部署：Docker容器化改造实践-编程实验室

Open-AutoGLM生产部署：Docker容器化改造实践

1. 背景与挑战：从本地实验到生产级部署

Open-AutoGLM 是智谱开源的一款面向手机端的 AI Agent 框架，基于 AutoGLM 视觉语言模型构建。它能够以多模态方式理解安卓设备屏幕内容，并通过 ADB（Android Debug Bridge）实现自动化操作。用户只需输入自然语言指令，如“打开小红书搜索美食”，系统即可自动解析意图、识别界面元素、规划操作路径并执行点击、滑动等动作。

当前大多数部署方式依赖于本地开发环境直接运行main.py，这种方式在研究和测试阶段足够灵活，但在生产环境中面临诸多问题：

环境依赖复杂：Python 版本、ADB 工具链、CUDA 驱动、vLLM 推理服务等难以统一管理。
可移植性差：不同服务器或边缘设备间迁移成本高。
服务稳定性弱：缺乏进程监控、资源隔离和故障恢复机制。
远程调用不便：缺少标准化 API 接口和服务注册发现能力。

为解决上述问题，本文将详细介绍如何对 Open-AutoGLM 进行Docker 容器化改造，实现其在云服务器上的稳定、可扩展、易维护的生产级部署。

2. 架构设计：分层解耦与模块化部署

2.1 整体架构概览

我们将整个系统划分为三个核心组件，采用微服务思想进行解耦：

组件	功能
VLM Inference Service	基于 vLLM 部署 AutoGLM 多模态模型，提供`/v1/completions`接口
ADB Control Plane	封装 ADB 操作逻辑，负责设备连接、截图获取、事件注入
Agent Orchestration Layer	实现任务解析、动作规划、状态机控制与人机交互

各组件通过 Docker 容器独立运行，共享宿主机的 USB 设备或局域网 ADB 连接。

2.2 容器化部署优势

✅ 环境一致性：确保开发、测试、生产环境完全一致
✅ 快速部署：一键启动完整服务栈
✅ 资源隔离：限制 GPU 显存、CPU 核数、内存使用
✅ 可扩展性：支持多设备并发控制
✅ 日志集中：便于监控与调试

3. Docker镜像构建：定制化基础镜像与多阶段编译

3.1 基础镜像选择

由于 Open-AutoGLM 依赖 PyTorch + CUDA + vLLM，我们选用 NVIDIA 提供的官方深度学习镜像作为基础：

FROM nvcr.io/nvidia/pytorch:24.03-py3

该镜像已预装 CUDA 12.1、cuDNN、PyTorch 2.2，极大简化了 GPU 支持配置。

3.2 多阶段构建策略

我们采用两阶段构建法，分离构建环境与运行环境，减小最终镜像体积。

第一阶段：依赖安装与代码编译

# Stage 1: Build dependencies FROM nvcr.io/nvidia/pytorch:24.03-py3 as builder WORKDIR /app COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt && \ pip install "git+https://github.com/zai-org/Open-AutoGLM.git@main"

第二阶段：精简运行时环境

# Stage 2: Runtime image FROM nvcr.io/nvidia/pytorch:24.03-py3 LABEL maintainer="ai-engineer@example.com" # Install ADB RUN apt-get update && \ apt-get install -y android-tools-adb android-tools-fastboot && \ rm -rf /var/lib/apt/lists/* # Create non-root user RUN useradd -m agent && mkdir /workspace && chown agent:agent /workspace USER agent WORKDIR /workspace # Copy installed packages from builder COPY --from=builder /opt/conda/lib/python3.10/site-packages /opt/conda/lib/python3.10/site-packages # Copy application code COPY --chown=agent . . # Expose vLLM default port EXPOSE 8000 CMD ["python", "main.py"]

提示：若需支持远程 ADB 调试，建议额外开放端口5555并启用 TCP/IP 模式。

4. 服务封装与配置管理

4.1 配置文件抽象

为了避免硬编码 IP、端口、设备 ID 等参数，我们引入config.yaml配置文件：

model: name: autoglm-phone-9b base_url: http://localhost:8000/v1 api_key: null adb: device_id: null # 自动检测第一个可用设备 connect_type: usb # usb | wifi wifi_port: 5555 runtime: max_steps: 50 enable_human_confirm: true log_level: INFO

并通过命令行参数覆盖关键字段：

python main.py --config config.yaml --device-id ABC123 --base-url http://gpu-server:8000/v1

4.2 启动脚本封装

创建entrypoint.sh脚本用于初始化 ADB 权限并启动服务：

#!/bin/bash set -e # Start ADB server adb start-server # Wait for device echo "Waiting for device..." adb wait-for-device # Enable TCP/IP if needed if [ "$ADB_CONNECT_TYPE" = "wifi" ]; then adb tcpip 5555 fi # Run the agent exec python main.py "$@"

赋予可执行权限并写入 Dockerfile：

COPY entrypoint.sh /workspace/entrypoint.sh RUN chmod +x /workspace/entrypoint.sh ENTRYPOINT ["/workspace/entrypoint.sh"]

5. Docker Compose 编排：一体化服务管理

为了简化多容器协同部署，我们使用docker-compose.yml统一管理推理服务与控制服务。

5.1 完整 compose 文件

version: '3.8' services: vllm-inference: image: vllm-autoglm:latest container_name: vllm-autoglm runtime: nvidia ports: - "8000:8000" volumes: - ./logs/vllm:/logs environment: - VLLM_HOST=0.0.0.0 - VLLM_PORT=8000 - VLLM_MODEL=THUDM/autoglm-phone-9b - VLLM_TENSOR_PARALLEL_SIZE=1 - VLLM_GPU_MEMORY_UTILIZATION=0.9 command: - "--host=0.0.0.0" - "--port=8000" - "--tensor-parallel-size=1" - "--max-model-len=4096" - "--enforce-eager" open-autoglm-agent: build: . container_name: open-autoglm privileged: true devices: - /dev/bus/usb:/dev/bus/usb # USB直通 network_mode: host # 使用主机网络以支持ADB WiFi volumes: - ./config:/workspace/config - ./logs/agent:/workspace/logs environment: - ADB_CONNECT_TYPE=usb depends_on: - vllm-inference command: - "--device-id=auto" - "--base-url=http://localhost:8000/v1" - "--model=autoglm-phone-9b"

5.2 关键配置说明

配置项	作用
`runtime: nvidia`	启用 NVIDIA Container Toolkit 支持 GPU
`privileged: true`	允许容器访问 USB 设备（ADB 必需）
`devices`	将物理 USB 总线挂载进容器
`network_mode: host`	避免 NAT 导致 ADB TCP 连接失败
`depends_on`	控制服务启动顺序

6. 生产优化建议

6.1 GPU 显存优化

AutoGLM-Phone-9B 模型较大，在单卡部署时需合理设置显存利用率：

environment: - VLLM_GPU_MEMORY_UTILIZATION=0.85 command: - "--max-model-len=2048" - "--max-num-seqs=4" - "--served-model-name=autoglm-phone-9b"

对于更高性能需求，可启用 Tensor Parallelism：

command: - "--tensor-parallel-size=2"

前提是使用双卡及以上配置。

6.2 多设备并发支持

通过启动多个open-autoglm-agent实例，每个绑定不同设备 ID，可实现并行处理：

# 实例1：控制设备A docker run -d --name agent-phone-a \ -e DEVICE_ID=A1B2C3D4 \ ... # 实例2：控制设备B docker run -d --name agent-phone-b \ -e DEVICE_ID=E5F6G7H8 \ ...

配合消息队列（如 Redis 或 RabbitMQ），可构建分布式手机自动化集群。

6.3 安全加固措施

🔐 使用 HTTPS 反向代理（Nginx + Let's Encrypt）保护/v1接口
🔒 设置 API Key 认证（vLLM 支持--api-key参数）
🛑 敏感操作默认开启人工确认模式
📊 所有操作日志记录审计轨迹

7. 远程调用与 API 集成

除了命令行方式，我们也支持 Python SDK 方式远程调用：

import requests def send_instruction(device_id: str, instruction: str): url = "http://<server-ip>:8000/invoke" payload = { "device_id": device_id, "instruction": instruction, "timeout": 300 } headers = {"Content-Type": "application/json"} response = requests.post(url, json=payload, headers=headers) return response.json() # 示例调用 result = send_instruction( device_id="ABC123", instruction="打开抖音搜索用户名为 dycwo11nt61d 的博主并关注" ) print(result)

此接口可集成至企业内部 RPA 平台或低代码流程引擎中。

8. 常见问题与排查指南

8.1 ADB 设备无法识别

现象：adb devices无输出或显示unauthorized

解决方案： - 确保手机已开启“USB 调试” - 第一次连接时需在手机上点击“允许调试”弹窗 - 若使用模拟器，检查是否启用了 ADB 支持

8.2 容器内 ADB 无法通信

现象：容器内adb devices为空，但宿主机正常

原因：USB 设备未正确挂载

修复方法：

devices: - /dev/bus/usb:/dev/bus/usb privileged: true

或手动在宿主机授权后传递设备号：

docker exec -it open-autoglm adb kill-server docker exec -it open-autoglm adb start-server

8.3 模型响应缓慢或 OOM

现象：请求超时或出现CUDA out of memory

优化建议： - 减小max-model-len至 2048 - 降低gpu_memory_utilization到 0.8 - 升级显卡或启用量化（vLLM 支持 AWQ/GPTQ）

9. 总结

本文系统地介绍了如何将 Open-AutoGLM 从一个本地实验项目升级为具备生产可用性的容器化服务。通过 Docker 镜像构建、多阶段编译、Compose 编排与资源配置优化，我们实现了：

✅ 环境标准化与快速部署
✅ GPU 加速推理与稳定 ADB 控制
✅ 多设备并发支持与远程调用能力
✅ 可监控、可扩展、可维护的服务架构

未来可进一步结合 Kubernetes 实现弹性伸缩，或将 Phone Agent 部署至边缘节点，打造真正的“AI 手机工人”集群。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Open-AutoGLM生产部署：Docker容器化改造实践