小白必看!Heygem数字人视频生成系统保姆级教程
你是不是也想过,不用请专业主播、不用租演播室、甚至不用出镜,就能做出一条口型自然、表情生动的数字人短视频?比如给产品做讲解、给课程配讲师、给品牌做IP形象……现在,这一切真的可以轻松实现。
Heygem数字人视频生成系统,就是这样一个“把声音变成会说话的数字人”的工具。它不烧脑、不写代码、不调参数,打开网页点几下,就能批量生成高质量口型同步视频。更关键的是——它专为普通人设计,哪怕你第一次听说“数字人”,也能10分钟上手。
本文不是冷冰冰的说明书,而是一份真正从零开始、手把手带你跑通全流程的保姆级实操指南。我会用最直白的语言,告诉你每一步该点哪里、传什么文件、遇到提示怎么理解、结果在哪下载,连日志怎么看都给你说清楚。全程无术语轰炸,只有真实操作和实用建议。
准备好了吗?我们这就出发。
1. 第一步:启动系统,打开你的数字人工作室
Heygem系统已经为你打包好所有依赖,不需要你安装Python环境、下载模型权重、配置CUDA——这些科哥(开发者)都帮你做好了。你只需要做一件事:启动它。
1.1 一行命令,唤醒系统
登录你的服务器(或本地Linux/WSL环境),进入项目根目录,执行:
bash start_app.sh看到终端里滚动出类似这样的日志,就说明启动成功了:
INFO: Uvicorn running on http://0.0.0.0:7860 INFO: Application startup complete.注意:如果提示
command not found: bash或权限错误,请先运行chmod +x start_app.sh赋予脚本执行权限。
1.2 打开浏览器,进入Web界面
启动完成后,在任意电脑的浏览器中输入:
http://localhost:7860如果你是在云服务器上部署的(比如阿里云、腾讯云),就把localhost换成你的服务器公网IP地址,例如:
http://123.56.78.90:7860正常情况下,你会看到一个简洁清晰的界面,顶部有“批量处理”和“单个处理”两个标签页——这就是你的数字人视频生成工作室。
1.3 日志在哪?出了问题怎么看?
系统运行时的所有动作都会实时记录在日志里,路径固定:
/root/workspace/运行实时日志.log想随时查看最新动态?在终端里执行这行命令,就能像看直播一样实时刷新日志:
tail -f /root/workspace/运行实时日志.log按Ctrl + C可退出日志监控。这个小技巧,后面排查上传失败、生成卡住等问题时特别管用。
2. 第二步:选对模式——批量 or 单个?别搞错
Heygem提供两种工作方式,就像做饭:
- 单个处理= 现炒一盘菜,快、直接、适合试效果;
- 批量处理= 一次备好十份食材,统一炒制,省时省力,适合正式出片。
新手建议:先用单个处理跑通流程,再切到批量模式批量产出。
2.1 单个处理模式:3分钟生成第一条视频
这是最快验证效果的方式。界面左右分屏,左边传音频,右边传视频,操作极简。
步骤1:上传你的“声音”
- 点击左侧区域写着“上传音频文件”的灰色框;
- 选择一段你自己录制的人声(推荐
.mp3或.wav格式); - 上传后,点击 ▶ 播放按钮,确认声音清晰、无杂音。
小贴士:
- 别用带背景音乐的音频,系统专注识别人声;
- 语速适中,避免过快吞字;
- 如果是AI配音,选“自然度高”的音色,效果更稳。
步骤2:上传你的“数字人”
- 点击右侧“上传视频文件”区域;
- 选择一段正面、静止、人脸清晰的短视频(推荐
.mp4,720p最佳); - 支持格式:
.mp4,.avi,.mov,.mkv,.webm,.flv; - 上传后同样可点击播放预览——确保画面中人物没晃动、光线均匀。
关键提醒:
这个视频不是“模板”,而是你的数字人“脸”。它决定了最终视频里谁在说话、什么长相、什么角度。你可以用自己实拍的10秒镜头,也可以用科哥预置的样例(如文档里的demo_face.mp4)。
步骤3:一键生成,坐等结果
- 点击中间醒目的“开始生成”按钮;
- 界面会显示“正在处理中…”并出现进度条;
- 处理时间取决于视频长度(1分钟视频约需30–60秒,GPU加速下更快);
- 完成后,“生成结果”区域自动出现一个MP4缩略图。
点击缩略图即可在右侧播放器中预览——注意看口型是否跟着音频动、表情是否自然、有没有穿帮或闪烁。如果满意,直接点下载按钮保存到本地。
2.2 批量处理模式:一次生成10条,效率翻倍
当你已经有了一段标准产品介绍音频,想快速生成多个不同数字人形象的版本(比如男声+女声、年轻版+成熟版、中文+英文口型),批量模式就是为你准备的。
步骤1:上传同一段音频(只传一次)
- 点击顶部标签页切换到“批量处理”;
- 在上方“上传音频文件”区域,传入你已准备好的音频(同单个模式要求);
- 上传后可随时播放确认。
步骤2:添加多个数字人视频(支持多选)
- 点击下方“拖放或点击选择视频文件”区域;
- 方式一(推荐):直接把多个
.mp4文件拖进这个灰框里; - 方式二:点击后弹出文件选择窗口,按住
Ctrl(Windows)或Cmd(Mac)多选多个视频; - 添加成功后,左侧会列出所有视频名称,比如:
zhangsan.mp4,lisi.mp4,ai_avatar_v2.mp4。
小技巧:视频命名尽量有意义,方便后续区分哪个是哪个数字人。
步骤3:管理你的数字人清单
- 点击列表中任一视频名,右侧会实时预览该视频画面;
- 想删掉某个?先勾选它,再点“删除选中”;
- 想全清空?点“清空列表”——放心,这只是删列表,原文件还在服务器上。
步骤4:启动批量任务,全程可视化
- 点击“开始批量生成”;
- 界面立刻切换为实时进度面板:
- 显示当前正在处理的视频名;
- 进度条 + “X / 总数”计数;
- 底部滚动状态提示(如“加载模型…”“合成口型…”“写入视频…”);
⏱ 提示:首次运行会稍慢(需加载AI模型),后续任务会明显提速。
步骤5:结果集中管理与下载
生成全部完成后,所有成品视频都会出现在“生成结果历史”区域:
- 预览:点击任意缩略图,在右侧播放器中逐个检查;
- 单个下载:选中视频 → 点击缩略图旁的下载图标(↓);
- 📦一键打包:点“📦 一键打包下载”→ 系统自动生成ZIP压缩包 → 点“点击打包后下载”即可获取全部视频;
- 🗑清理空间:选中不需要的视频 → 点“🗑 批量删除选中”,释放磁盘空间。
实测建议:首次批量建议控制在3–5个视频内,熟悉流程后再扩量。单个视频建议不超过5分钟,兼顾质量与速度。
3. 第三步:文件怎么准备?效果好坏,90%取决于这一步
很多用户反馈“生成效果不自然”,其实问题往往不出在系统,而出在输入文件本身。Heygem很聪明,但没法凭空修复模糊的视频或嘈杂的音频。下面这些准备建议,都是科哥团队反复验证过的“效果放大器”。
3.1 音频:让数字人“说清楚”的基础
| 项目 | 好的做法 | 避免踩坑 |
|---|---|---|
| 格式 | 优先.wav(无损)、其次.mp3(128kbps以上) | 不要用.amr、.wma等小众格式 |
| 内容 | 纯人声,语速平稳,发音清晰 | 带背景音乐、回声、电流声、多人对话 |
| 录制建议 | 手机录音即可,用耳机麦克风,安静房间 | 在地铁、咖啡馆、空调轰鸣环境下录 |
| 长度 | 30秒–3分钟最佳(太短看不出口型变化,太长易出错) | 单次处理超5分钟视频,建议拆分 |
实用小技巧:用手机自带录音App录完,用微信“文件传输助手”发给自己,再下载到电脑——零成本保真。
3.2 视频:决定数字人“长什么样”的关键
| 项目 | 好的做法 | 避免踩坑 |
|---|---|---|
| 构图 | 正面半身或大头照,人脸占画面60%以上 | 侧脸、背影、全身远景、多人同框 |
| 动作 | 保持静止!头部微动可接受,但不要摇头、挥手 | 大幅度转头、走动、手势频繁 |
| 画质 | 720p或1080p,光线均匀,面部无反光/阴影 | 模糊、过曝、欠曝、手机抖动、美颜过度 |
| 格式 | .mp4(H.264编码)最稳定 | .mov(ProRes)虽高清但体积大、兼容性略低 |
推荐拍摄方案:
- 手机横屏固定在三脚架上;
- 人物坐直,微笑自然,眼睛平视镜头;
- 开启手机“人像模式”虚化背景,突出主体;
- 录3–5秒纯静止画面,截取其中1帧作为封面图(用于预览识别)。
4. 第四步:常见问题现场解决——别再截图问“为什么不动了”
根据上百位用户实操反馈,以下问题出现频率最高。我们不讲原理,只给“马上能用”的解决方案。
4.1 上传后没反应?按钮点不了?
- 先检查浏览器:必须用 Chrome、Edge 或 Firefox,Safari 和部分国产浏览器可能不兼容;
- 再看文件:确认格式在支持列表内(音频:
.wav/.mp3/.m4a;视频:.mp4/.avi/.mov); - 最后看网络:上传大文件(>100MB)时,保持Wi-Fi稳定,避免中途断连;
- 快速自查:打开浏览器开发者工具(F12)→ 切到 Console 标签页 → 上传时看是否有红色报错(如
Failed to load resource)。
4.2 进度条卡在“X/总数”,一直不动?
- 这是正常现象:首次运行需加载AI模型(约200MB),耗时30–90秒,耐心等待;
- 后续任务若仍卡住,去终端执行:
tail -n 20 /root/workspace/运行实时日志.log查看最后20行日志,重点找ERROR或Traceback字样;
- 常见原因:GPU显存不足(可重启服务释放);视频分辨率过高(尝试转为720p再传)。
4.3 生成的视频口型不同步?像“对不上嘴”
- 首先确认:音频和视频时长是否匹配?Heygem默认将整段音频驱动整段视频。如果音频10秒、视频30秒,后20秒就会循环口型或静止;
- 解决方案:用剪映/手机自带编辑器,把视频裁剪成与音频等长(或略长1–2秒);
- 进阶技巧:在音频开头加0.5秒静音,给系统留出“启动缓冲”,口型起始更自然。
4.4 下载ZIP包打不开?提示“损坏”
- 这是浏览器下载中断导致的。不要点“重试”,而是:
- 回到Heygem界面 → 点“📦 一键打包下载” → 等待新包生成;
- 点“点击打包后下载”时,右键 → 另存为,手动指定保存路径;
- 若仍失败,改用单个下载:选中全部视频 → 逐个点下载图标(↓),更稳妥。
5. 第五步:进阶技巧——让效果更专业、流程更高效
当你已熟练操作,这些技巧能帮你把效率再提一档,效果再升一级。
5.1 批量命名自动化:告别“output_1.mp4”这种名字
系统默认生成的文件名是时间戳(如20250405_142318.mp4)。想改成产品介绍_张三版.mp4?很简单:
- 在服务器上进入输出目录:
cd /root/workspace/outputs - 用
ls -lt查看最新生成的文件; - 执行重命名(以第一个文件为例):
mv 20250405_142318.mp4 产品介绍_张三版.mp4
小批量可用此法;大批量建议写个简单Shell脚本,科哥文档末尾附了微信,可直接问他要现成脚本。
5.2 定期清理,防止磁盘爆满
生成的视频默认存在/root/workspace/outputs/,长期不清理会占满空间。推荐每周执行一次:
# 删除7天前的所有MP4文件 find /root/workspace/outputs/ -name "*.mp4" -mtime +7 -delete # 查看剩余空间(GB) df -h /root5.3 用ChromeDriver自动化?进阶玩家的私藏方案
如果你需要每天定时生成、集成到工作流、或做回归测试,科哥还提供了基于ChromeDriver的自动化脚本(参考博文已给出完整代码)。它能模拟真人操作:自动打开页面、上传文件、点击生成、截图验证、失败告警。适合技术同学或想搭建无人值守流水线的团队。
提示:该脚本无需修改Heygem源码,完全通过Web界面操作,零侵入、易维护。需要脚本或部署支持,可联系科哥(微信:312088415)。
6. 总结:你已经掌握了数字人视频生产的完整链路
回顾一下,我们一路走来做了什么:
- 启动系统:一行命令
bash start_app.sh,打开http://localhost:7860; - 选择模式:新手从“单个处理”起步,熟手切“批量处理”提效;
- 准备文件:一段干净人声 + 一段静止正脸视频,就是全部输入;
- 生成下载:点按钮 → 看进度 → 预览 → 下载(单个或打包);
- 排障优化:从浏览器、格式、日志、裁剪四方面,快速定位常见问题;
- 进阶提效:重命名、定时清理、自动化脚本,让工作流更丝滑。
Heygem的价值,从来不是炫技,而是把一件原本需要专业团队、数小时才能完成的事,压缩到几分钟,交到每个普通人的手里。你不需要懂AI原理,只要知道“我想让谁,说什么话”,剩下的,交给它就好。
现在,你的数字人工作室已经就绪。不妨就用今天学到的方法,花5分钟,生成第一条属于你自己的数字人视频——然后发给朋友,看看他们惊讶的表情。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。