- 绪论:从像素到个体
计算机视觉的终极目标之一是让机器能够像人类一样“看懂”世界。这不仅仅意味着识别出图像中有什么物体,更意味着要理解物体的位置、形状、以及它们之间的相互关系。从这一目标出发,计算机视觉任务从粗到细,逐步深化。
1.1. 什么是实例分割?
实例分割(Instance Segmentation) 是计算机视觉中一项精细且具有挑战性的任务。它结合了目标检测(Object Detection) 和语义分割(Semantic Segmentation) 的核心需求。具体来说,实例分割的目标是:
检测出图像中每一个感兴趣的目标实例。
为每一个检测到的实例生成一个像素级的掩模(Mask),精确描绘出该实例在图像中的轮廓。
同时,为每个实例分配一个类别标签和一个实例ID,以区分同一类别的不同个体。
用公式来形式化这个问题:给定一张输入图像I∈RH×W×3I \in \mathbb{R}^{H \times W \times 3}I