Pytorch图像去噪实战(五十八):训练数据清洗实战,删除损坏、过小、重复和低质量图片
一、问题场景:模型训练不稳定,最后发现是数据集有问题
图像去噪训练中,很多问题不是模型造成的,而是数据集造成的。
我遇到过几类非常隐蔽的问题:
- 图片损坏
- 图片尺寸太小
- 文件后缀错误
- 重复图片太多
- 纯黑图、纯白图
- 低质量压缩图混入 clean 数据
- 成对数据 noisy-clean 不匹配
这些问题会导致:
- DataLoader 报错
- loss 异常波动
- 模型输出偏色
- 模型学到压缩伪影
- 训练结果不稳定
所以训练前必须做数据清洗。
二、数据清洗应该检查什么?
建议检查:
是否能打开 尺寸是否过小 是否为图片 是否重复 是否纯色 文件大小是否异常 是否存在对应GT三、工程目录结构
data_cleaning/ ├── raw_data/ ├── clean_data/ ├── removed/ ├