嘴型训练数据集嘴型数据集可用于训练wav2lip模型史上最数字人嘴型训练数据集-编程实验室

史上最数字人嘴型训练数据集，样本超1000个，话语实例超550000个，可用于训练wav2lip模型！数据量巨大，约66g，
1

史上最强数字人嘴型训练数据集（LRW-1000 / CAS-VSR-W1k）

样本超1000 人，话语实例超550,000 条，可直接用于训练Wav2Lip等嘴型同步模型
原始数据体量巨大，约66GB，高清视频+音频配对，覆盖年龄、性别、语速、表情、光照、多视角
场景丰富：新闻播报、日常对话、访谈等，真实自然，泛化能力强
用途：数字人直播、虚拟主播、短视频对口型、AI 换嘴、唇语识别、语音驱动面部动画
格式：视频（MP4）+ 对应音频（WAV）+ 文本标注，开箱即用，适配 Wav2Lip、SadTalker、GeneFace++

数据集信息表

项目	内容
数据集名称	LRW-1000（CAS-VSR-W1k）
说话人数	≥1000 人
话语实例	≥550,000 条
数据大小	约 66GB
数据格式	视频 MP4 + 音频 WAV + 文本标注
适用模型	Wav2Lip、SadTalker、GeneFace++、唇语识别等
场景覆盖	新闻、访谈、日常对话、多光照、多视角

环境准备（Wav2Lip）

conda create-nwav2lippython=3.8conda activate wav2lip pipinstalltorch==1.10.0torchvision==0.11.0 pipinstallopencv-python ffmpeg-python pillow pipinstalllibrosa numpy

数据集准备与目录结构

lrw1000/ ├── videos/ # 所有视频.mp4 ├── audios/ # 对应音频.wav ├── transcripts/ # 文本标注.txt ├── train.txt # 训练集列表 ├── val.txt # 验证集列表 └── test.txt # 测试集列表

格式转换（统一提取人脸+对齐音频）

importcv2importlibrosaimportosdefextract_face_and_audio(video_path,out_img_dir,out_audio_dir):os.makedirs(out_img_dir,exist_ok=True)os.makedirs(out_audio_dir,exist_ok=True)# 提取人脸帧cap=cv2.VideoCapture(video_path)idx=0whileTrue:ret,frame=cap.read()ifnotret:breakcv2.imwrite(f"{out_img_dir}/{idx:06d}.jpg",frame)idx+=1cap.release()# 提取音频y,sr=librosa.load(video_path,sr=16000)librosa.output.write_wav(f"{out_audio_dir}/audio.wav",y,sr)# 批量处理withopen("train.txt")asf:lines=f.read().splitlines()forlineinlines:extract_face_and_audio(f"lrw1000/videos/{line}.mp4",f"lrw1000/preprocessed/train/{line}",f"lrw1000/preprocessed/train/{line}")

配置文件（wav2lip.yaml）

data_root:"lrw1000/preprocessed"train_list:"train.txt"val_list:"val.txt"img_size:96fps:25sample_rate:16000batch_size:32epochs:50lr:0.001

模型训练代码

fromultralyticsimportYOLOimporttorchfromwav2lip.modelsimportWav2Lip model=Wav2Lip()model.cuda()# 加载数据、优化器、损失函数省略...forepochinrange(50):model.train()forbatchintrain_loader:imgs,audios,targets=batch imgs,audios,targets=imgs.cuda(),audios.cuda(),targets.cuda()outputs=model(imgs,audios)loss=criterion(outputs,targets)loss.backward()optimizer.step()print(f"Epoch{epoch}, Loss:{loss.item()}")torch.save(model.state_dict(),f"checkpoints/epoch_{epoch}.pth")

推理代码（生成嘴型同步视频）

fromwav2lipimportinferenceimportcv2 face_img="test_face.jpg"audio_path="test_audio.wav"out_path="result.mp4"inference.run(face=face_img,audio=audio_path,outfile=out_path,checkpoint_path="checkpoints/best.pth")print("✅ 生成完成：",out_path)

评估代码（计算LSE、同步误差）

importnumpyasnpfromwav2lip.metricsimportcalculate_lse pred_video="result.mp4"gt_video="ground_truth.mp4"lse=calculate_lse(pred_video,gt_video)print(f"LSE（唇形同步误差）:{np.mean(lse):.4f}")

基于xG24与Neuton.AI的手势遥控器：嵌入式AI开发全流程解析

1. 项目概述：从零打造一个手势遥控器在智能硬件和物联网设备开发中，人机交互方式正变得越来越多样化。传统的物理按键或触摸屏虽然可靠，但在某些场景下，比如在厨房做饭时想切歌，或者在客厅沙发上想快进视频&#xff0c…

李华

3分钟掌握神经网络可视化：用NN-SVG创建专业架构图

3分钟掌握神经网络可视化：用NN-SVG创建专业架构图【免费下载链接】NN-SVG Publication-ready NN-architecture schematics. 项目地址: https://gitcode.com/gh_mirrors/nn/NN-SVG 在神经网络研究和教学中，清晰地展示模型架构一直是个技术挑战。…

李华

Silicon Graphics 030-0686-004图形控制板卡

Silicon Graphics 030-0686-004 图形控制板卡基于高性能图形处理架构设计，主要用于 SGI 系列工作站或图形服务器，提供高带宽图形数据与显示输出能力。中间（15条）：板卡采用专用图形处理芯片，支持 2D/3D 硬件…

李华

Android Zygote启动过程

Zygote 凭什么让 Android App 启动这么快？从受精卵到进程孵化，拆解系统启动最精妙的设计（附实战优化）目录一、Zygote 是什么？为什么叫"受精卵"？二、Zygote 的完整启动流程三、Zygote 源码走读四、fork 机制与 COW 五、Zygote 孵化应用的完整链路六、pre…

李华

Linux系统终极解决方案：Dislocker轻松访问BitLocker加密分区

Linux系统终极解决方案：Dislocker轻松访问BitLocker加密分区【免费下载链接】dislocker FUSE driver to read/write Windows BitLocker-ed volumes under Linux / Mac OSX 项目地址: https://gitcode.com/gh_mirrors/di/dislocker 在当今数据安全至上的时代…

李华