084、工业缺陷检测样本太少?数据增强、缺陷合成与异常检测模型工程方案
昨晚在产线调试一个PCB焊点检测模型,客户给了300张良品图,缺陷样本只有12张——其中5张还是同一类虚焊。项目经理问我:“这模型能上线吗?”我盯着那12张图,心想:能,但得先“变”出几千张来。
工业缺陷检测最头疼的不是算法选型,而是样本。良品管够,缺陷稀罕。今天这篇笔记,就聊聊我踩过的坑和实际落地方案。
一、别急着上GAN,先看看数据增强能榨出多少
很多人一听说样本少,第一反应就是GAN生成。但GAN训练本身就需要大量数据,而且生成质量不稳定。我一般先做三件事:
几何变换:旋转、平移、缩放、翻转。注意,工业场景下有些变换要谨慎。比如PCB焊点,旋转90度没问题,但翻转镜像可能改变焊点极性——这里踩过坑,客户后来发现模型把镜像焊点当成了新缺陷。
颜色抖动:亮度、对比度、饱和度微调。工业相机光照不稳定,这个增强能模拟不同光照条件。我习惯把亮度范围设在±15%,对比度±10%,太大反而失真。
噪声注入:高斯噪声、椒盐噪声。模拟传感器噪声,但别加太多,否则模型会学会“去噪”而不是“检测缺陷”。我一般噪声强度控制在0.01以下。
这些基础增强,能把300张良品变成3000张,12张缺陷变成120张。但120张还是不够,得合成。
二、缺陷合成:不是简单贴图,要模拟物理过程
缺陷合成最容