GLM-Image保姆级教程:从安装到生成第一张AI画作
你有没有试过这样的情景:脑子里已经浮现出一幅画面——“月光下的青瓦白墙,檐角悬着一盏纸灯笼,细雨如丝,石板路泛着微光”——可翻遍图库找不到,自己又不会画画,AI绘图工具却卡在第一步:连界面都打不开?
别急。今天这篇教程,就是为你写的。
不是那种“先装CUDA、再配Conda、最后编译源码”的硬核指南,而是一份真正意义上的零基础实操手册:不假设你懂Linux命令,不预设你有GPU运维经验,甚至不默认你会用终端。只要你会点鼠标、会输网址、能看懂中文提示,就能在30分钟内,亲手生成属于你的第一张GLM-Image AI画作。
我们用的,是智谱AI最新开源的文本生成图像模型——GLM-Image,搭配它自带的Web交互界面。它不像某些模型需要写代码调用API,也不用折腾Stable Diffusion的WebUI插件;它就是一个开箱即用的“AI画布”,点开就能画,画完自动存,连保存路径都给你想好了。
下面,咱们就从打开终端那一刻开始,一步一截图(文字描述版),手把手带你走完全部流程。
1. 先确认:你的环境够用吗?
别跳这步。很多人卡在“为什么点不动生成按钮”,其实只是显存或硬盘没达标。
GLM-Image是个能力扎实的模型,但它不是轻量玩具。它的官方推荐配置,是为稳定生成高质量图服务的。我们来逐项核对,用最直白的语言说清楚每一条意味着什么:
操作系统:必须是 Linux(推荐 Ubuntu 20.04 或更新版本)
你用的是云服务器(如阿里云/腾讯云/CSDN星图镜像)?基本都是Linux,没问题。
❌ 你用的是Windows电脑本地运行?抱歉,这个镜像不支持。但你可以直接使用CSDN星图提供的预部署实例,跳过所有安装步骤——后面会告诉你怎么连。Python 版本:3.8 及以上
这个不用你手动装。镜像里已预装好 Python 3.10,你只需要确认没被误删。显卡与显存:NVIDIA GPU,24GB 显存起步(如 RTX 4090 / A100 / L40)
注意:这是“推荐值”,不是“最低值”。如果你只有 12GB(如 3090),也能跑,但得开启“CPU Offload”模式——也就是把部分计算搬到内存里做,速度会慢30%~50%,且不能同时生成多张图。
镜像已内置该功能,启动时加一个参数就行,后面会教。硬盘空间:至少 50GB 可用空间
原因很实在:模型本身约 34GB,加上缓存、生成图、依赖包,留足余量才不中途报错。
小技巧:df -h命令可以快速查看剩余空间。如果显示/root分区只剩不到40GB,请先清理日志或旧镜像。网络环境:能访问 Hugging Face(国内用户建议已配置镜像源)
镜像文档里写了HF_ENDPOINT=https://hf-mirror.com,说明它已默认启用国内镜像加速,首次加载模型时不会卡在“下载中…”半小时不动。
一句话总结:如果你用的是CSDN星图镜像广场里的“智谱AI GLM-Image” 预置镜像,上面所有条件——都已经满足。你唯一要做的,就是启动它。
2. 启动服务:三行命令,搞定全部
很多教程把“启动”写成玄学。一会儿要改端口,一会儿要查进程,一会儿又要杀僵尸。其实,在这个镜像里,启动就是一件极简的事。
2.1 检查服务是否已在运行
打开终端(SSH连接进你的服务器),输入:
ps aux | grep "webui.py" | grep -v grep如果返回空行,说明服务没起来;如果看到类似下面这一行,说明它已经在跑了:
root 1234 0.1 12.5 4567890 123456 ? Sl Jan18 2:15 python /root/build/webui.py服务已运行 → 直接跳到第3节:访问界面
❌ 服务未运行 → 继续执行下一步。
2.2 一键启动:只用一条命令
镜像为你准备了封装好的启动脚本,路径固定:
bash /root/build/start.sh按下回车后,你会看到类似这样的输出:
正在启动GLM-Image WebUI... 模型缓存路径已设置:/root/build/cache/huggingface CUDA环境检测通过 Gradio WebUI 启动中... INFO | gradio:app | Starting Gradio app on http://0.0.0.0:7860最后一行http://0.0.0.0:7860是关键——它表示服务已成功监听在7860 端口。
如果你想换端口(比如7860被占用了),只需加参数:
bash /root/build/start.sh --port 8080然后访问http://<你的IP>:8080即可。
2.3 (可选)让服务后台常驻
默认情况下,关闭终端窗口,服务就会停止。如果你希望它一直运行,加一个&并用nohup包裹:
nohup bash /root/build/start.sh > /root/build/webui.log 2>&1 &这条命令的意思是:“以后台方式运行启动脚本,把所有输出记到webui.log文件里,关掉终端也不影响。”
提示:日志文件路径是
/root/build/webui.log,遇到问题时第一个要看的就是它。
3. 访问界面:打开浏览器,看见你的AI画布
现在,打开你的 Chrome / Edge / Safari 浏览器,在地址栏输入:
http://<你的服务器IP>:7860注意:
<你的服务器IP>是你云服务器的公网IP(不是127.0.0.1,那是本机);- 如果你在本地虚拟机,且做了端口映射,就填
http://localhost:7860; - 如果用的是CSDN星图镜像,控制台页面上会直接显示“访问地址”,点击即可。
几秒后,你会看到一个干净、现代、带深蓝渐变边框的界面——这就是 GLM-Image 的 WebUI。
它长这样(文字描述版):
- 左侧是操作区:顶部有「加载模型」按钮,下面是两个大文本框——「正向提示词」和「负向提示词」;
- 中间是参数调节栏:滑块控制「宽度」「高度」「推理步数」「引导系数」,还有一个「随机种子」输入框;
- 右侧是结果展示区:初始为空,生成后会显示高清图,并带「下载」按钮;
- 底部有一行小字:“Model: GLM-Image | Status: Ready”。
到这一步,你已经完成了90%的技术工作。剩下的,全是创作。
4. 加载模型:耐心等一次,换来长久快
第一次打开界面时,你会发现「生成图像」按钮是灰色的,点不了。这是因为——模型还没加载。
别慌。这不是错误,是设计。
点击左上角的「加载模型」按钮。
你会看到界面右下角弹出一个黄色提示条:
“正在从 Hugging Face 下载 GLM-Image 模型(约34GB)……请勿关闭页面”
此时,后台正在静默下载。你不需要做任何事,只需等待。
⏱ 时间参考(基于国内镜像源):
- 千兆带宽:约 8~12 分钟
- 百兆带宽:约 25~40 分钟
- 下载完成后,按钮会自动变亮,提示条变成绿色:“ 模型加载成功”
小贴士:
- 下载过程可在终端用
tail -f /root/build/webui.log实时查看进度; - 下载位置是
/root/build/cache/huggingface/hub/models--zai-org--GLM-Image/,下次启动就不再重复下载; - 如果中途断网,重新点「加载模型」即可续传,无需重头来。
5. 写好第一句提示词:不是“画个猫”,而是“画一只怎样的猫”
很多人生成失败,不是模型不行,是提示词太“懒”。
GLM-Image 不是关键词搜索引擎。它理解的是语义组合。你给它越具体的画面指令,它还给你的就越接近想象。
我们来写你的第一句提示词。不追求复杂,但求清晰、可执行、有质感。
5.1 一个真实可用的入门模板
请直接复制粘贴到「正向提示词」框中:
A serene ink-wash painting of a lone scholar sitting by a misty riverbank, bamboo grove in background, soft grey tones, traditional Chinese aesthetic, high detail, 1024x1024翻译成中文就是:
一幅宁静的水墨画,一位文人独自坐在雾气弥漫的河岸边,背景是竹林,整体色调柔和偏灰,体现中国传统美学,细节丰富,输出尺寸1024×1024。
为什么这句有效?
- 有主体(文人)、有场景(河岸+竹林+雾气)、有风格(水墨画+中国传统美学)、有质量要求(high detail)、有尺寸(1024x1024);
- 没有用模糊词如“beautiful”“nice”,而是用“serene”“misty”“soft grey tones”这种可视觉化的形容词;
- 英文书写符合模型训练语料习惯(中文提示词也支持,但英文目前更稳)。
5.2 负向提示词:告诉它“不要什么”
在下方「负向提示词」框中,填入:
photorealistic, photograph, modern building, text, signature, watermark, blurry, low quality, deformed, extra limbs意思是:不要写实照片风、不要现代建筑、不要文字水印、不要模糊、不要低质、不要形变、不要多余肢体。
这不是固定答案。你可以根据需求替换,比如画人物时加bad anatomy,画风景时加people, cars。
6. 调整参数:四把“画笔”,决定最终效果
界面中间的四个滑块,就是你控制AI作画的“物理画笔”。我们挨个说清它们的作用,不讲术语,只讲手感。
6.1 宽度 & 高度:画布有多大?
- 默认是 1024×1024,适合大多数创作;
- 想生成手机壁纸?设成
1080x2400; - 想打印海报?可拉到
2048x2048(注意:显存压力会明显上升); - 初次尝试,强烈建议保持默认,先看效果,再调分辨率。
6.2 推理步数(Inference Steps):AI“思考”多少轮?
- 数值越大,AI反复润色的次数越多,细节越丰富,但耗时越长;
- 推荐值:50(平衡质量与速度);
- 追求极致细节?可试 75;
- 急着出草稿?30 也够用,只是边缘略软。
实测参考(RTX 4090):50步 ≈ 137秒(1024×1024);30步 ≈ 85秒。
6.3 引导系数(Guidance Scale):AI“听话”的程度
- 数值越高,AI越严格按你的提示词执行,但可能牺牲自然感;
- 数值越低,AI越自由发挥,画面更柔和,但容易跑题;
- 推荐值:7.5(通用安全值);
- 提示词很精准时,可升到 9.0;
- 提示词较抽象(如“梦幻”“忧郁”),建议降到 5.0~6.0。
6.4 随机种子(Seed):要不要“复刻”同一张图?
- 填
-1:每次生成都不同(默认); - 填一个数字(如
42):只要提示词和参数不变,生成结果完全一致; - 用途:当你生成了一张特别喜欢的图,想微调某处(比如换个颜色),就把种子固定,只改提示词,就能对比差异。
7. 生成并保存:点击一下,见证第一张AI画作诞生
确认以下五项都已设置:
- 模型已加载(按钮变亮)
- 正向提示词已填写(用我们给的那句)
- 负向提示词已填写(用我们给的那句)
- 宽度/高度 = 1024×1024
- 推理步数 = 50,引导系数 = 7.5,种子 = -1
然后,点击右下角那个醒目的蓝色按钮:「生成图像」。
你会看到:
- 按钮变成灰色,显示“Generating…”;
- 右侧区域出现旋转加载图标;
- 终端日志里滚动着
Step 1/50,Step 2/50… 直到Step 50/50; - 约2分钟后,一张高清水墨画完整呈现——文人、河岸、竹林、雾气,全在。
成功了!这就是你用 GLM-Image 生成的第一张AI画作。
它会自动保存到:
/root/build/outputs/2026-01-18_14-22-35_428712.png(文件名含时间戳 + 随机种子,确保不重名)
你还可以直接点击图下方的「下载」按钮,把这张图存到你本地电脑。
8. 进阶技巧:让AI画得更准、更快、更有风格
你已经会用了。接下来,是让效果更进一步的三个实用技巧。
8.1 提示词分层法:用逗号制造“视觉优先级”
GLM-Image 对逗号分隔的短语有天然权重感知。把最重要的元素放前面,次要的放后面:
masterpiece, best quality, (a lone scholar:1.3), (misty riverbank:1.2), bamboo grove, soft grey ink wash, traditional Chinese style括号()和冒号:1.3表示加强权重。1.3意味着“文人”这个元素比默认重要30%。数值范围一般在 0.8~1.5 之间。
8.2 尺寸巧用:先小图试构图,再大图出成品
不要一上来就跑 2048×2048。推荐两步法:
- 用
512x512+30步快速生成4~6张草稿,选构图最满意的; - 固定种子,把尺寸调到
1024x1024或1536x1536,步数提到50,重新生成——既省时间,又保质量。
8.3 风格速查表:复制即用的常用风格词
| 风格类型 | 推荐提示词后缀(英文) |
|---|---|
| 写实摄影 | photorealistic, DSLR, f/1.4, shallow depth of field |
| 日系插画 | anime style, Studio Ghibli, soft lighting, pastel colors |
| 故宫红墙 | Chinese palace architecture, vermilion walls, golden roof tiles, symmetrical composition |
| 赛博朋克 | cyberpunk cityscape, neon signs, rain-soaked streets, volumetric lighting |
| 儿童绘本 | children's book illustration, thick outlines, flat colors, friendly characters |
把这些后缀加到你的主提示词末尾,风格立现。
9. 常见问题速查:遇到卡点,30秒找到解法
我们整理了新手最常遇到的5个问题,附上一行命令级解决方案:
| 问题现象 | 原因与解决方法 |
|---|---|
| 点击「生成图像」无反应 | 检查终端是否报错:tail -n 20 /root/build/webui.log;常见是显存不足,改用bash /root/build/start.sh --cpu-offload重启 |
| 生成图全是噪点/扭曲/缺胳膊少腿 | 负向提示词没填,或引导系数太低(<5)。补上deformed, extra limbs, blurry,把 guidance scale 调到 7.5~8.5 |
| 图片保存路径找不到 | 所有图都在/root/build/outputs/,用ls -lt /root/build/outputs/查看最新文件 |
| 想换端口但不知道怎么停旧服务 | pkill -f "webui.py"杀掉所有相关进程,再用bash /root/build/start.sh --port 8000启新服务 |
| 提示词中文不生效 | 当前版本对中文支持尚不稳定。坚持用英文提示词,用 DeepL 或百度翻译辅助,效果远超直接输中文 |
10. 总结:你已经掌握了AI绘画的核心能力
回顾这整个过程,你实际完成的操作只有:
- 输入一条命令启动服务;
- 等一次模型加载(仅首次);
- 填两段提示词;
- 拉四个滑块;
- 点一次按钮。
没有编译、没有配置、没有环境冲突、没有报错重试。你拿到的不是一个技术demo,而是一个可立即投入创作的真实工具。
GLM-Image 的价值,不在于它参数有多高,而在于它把“从想法到画面”的路径,压缩到了最短——短到一个非技术人员,也能在一杯咖啡的时间内,把脑海中的意象,变成一张可分享、可打印、可商用的高清图像。
接下来,你可以:
- 把它嵌入你的设计工作流,批量生成海报初稿;
- 用它为小说配图,为PPT做视觉提效;
- 甚至把它作为教学工具,让学生直观理解“水墨”“留白”“虚实相生”的传统美学。
技术的意义,从来不是让人仰望,而是让人伸手可及。
你现在,已经伸出手,并握住了它。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。