Pytorch图像去噪实战(五十四):训练日志系统实战,记录每次实验参数、指标和异常
一、问题场景:模型效果不错,但忘了是哪次实验训练出来的
图像去噪实验做多了以后,经常会出现一种很尴尬的情况:
某个模型效果很好,但忘了当时的参数、数据集、loss 和训练轮数。
只看文件名:
best.pth final.pth unet_v2.pth last_good.pth完全无法判断模型来源。
所以真实项目必须记录日志。
日志不仅用于看 loss,更用于记录:
- 实验配置
- 训练指标
- 验证指标
- 异常信息
- 模型保存路径
- 运行时间
- 环境信息
二、日志系统应该记录什么?
建议至少记录:
实验名 配置文件 训练开始时间 每轮loss 验证PSNR/SSIM 学习率 最佳模型路径 异常报错 训练结束时间如果是团队项目,还可以记录:
- Git commit
- 机器名
- CUDA版本 <