news 2026/6/15 19:14:41

11.4 计算机视觉任务专用网络:目标检测、语义分割与实例分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
11.4 计算机视觉任务专用网络:目标检测、语义分割与实例分割

11.4 计算机视觉任务专用网络:目标检测、语义分割与实例分割

计算机视觉的核心任务旨在赋予机器“看懂”图像的能力,其需求从粗糙到精细,衍生出目标检测、语义分割和实例分割三大关键任务。为高效解决这些任务,研究者设计了各具特色的专用网络架构。本节将系统阐述以R-CNN系列YOLO系列为代表的目标检测网络,以FCNU-Net为代表的语义分割网络,以及作为实例分割基准的Mask R-CNN。这些架构不仅是解决特定任务的工具,其设计思想也深刻反映了计算机视觉从区域识别到像素级理解的演进脉络。

11.4.1 目标检测:从区域提议到端到端回归

目标检测的任务是定位图像中所有感兴趣的目标(用边界框表示)并识别其类别。其技术路线主要分为两阶段(Two-Stage)检测器和单阶段(One-Stage)检测器。

11.4.1.1 R-CNN系列:两阶段检测的演进

两阶段检测器首先生成可能包含目标的候选区域(Region Proposals),再对每个候选区域进行分类和边界框精修。R-CNN系列是这一范式的典型代表。

  1. R-CNN(Regions with CNN features):开创性地将CNN引入目标检测。其流程为:(1) 使用选择性搜索(Selective Search)生成约2000个候选区域;(2) 将每个区域缩放到固定尺寸,送入预训练的CNN(如AlexNet)提取特征;(3) 使用类别特定的线性支持向量机(SVM)进行分类;(4) 使用线性回归模型对边界框进行精修。R-CNN的主要问题是重复计算(每个候选区域独立通过CNN)和训练测试流程复杂

  2. Fast R-CNN:针对R-CNN的改进,引入了RoI(Region of Interest)池化层。网络首先对整个图像进行一次CNN前向传播,得到共享的特征图;然后,将每个候选区域投影到特征图上,通过RoI池化层将不同尺寸的候选区域特征转换为固定尺寸的特征向量;最后,特征向量被送入两个并行的全连接层,分别进行类别分类边界框回归。Fast R-CNN实现了端到端训练,大幅提升了速度和精度。

  3. Faster R-CNN:该架构的核心创新是用区域提议网络(Region Proposal Network, RPN)取代了耗时的选择性搜索。RPN是一个全卷积网络,在共享的特征图上滑动,为每个位置生成多个不同尺度和长宽比的锚框(Anchor Boxes),并输出每个锚框是“目标”的置信度及其初步的边界框偏移量。RPN与Fast R-CNN检测器共享特征图,实现了候选区域生成、分类和回归的完全端到端训练,是两阶段检测器的里程碑。

下表概括了R-CNN系列的核心演进:

模型区域提议方法核心创新主要优势遗留问题
R-CNN选择性搜索CNN特征提取、SVM分类、边界框回归首次展示CNN特征对检测的有效性速度慢、存储开销大、流程多阶段
Fast R-CNN选择性搜索RoI池化层、多任务损失(分类+回归)共享计算、端到端训练、速度显著提升区域提议仍是计算瓶颈
Faster R-CNNRPN(区域提议网络)RPN与检测网络共享特征、锚框机制真正意义上的端到端、精度与速度的平衡整体速度仍不及单阶段检测器
11.4.1.2 YOLO系列:单阶段实时检测的标杆

与两阶段方法不同,单阶段检测器将目标检测视为一个单一的回归问题,直接从图像像素预测边界框和类别概率,以实现极高的检测速度。YOLO(You Only Look Once)是其中最著名的系列。

  1. 核心思想与早期版本:YOLOv1将输入图像划分为S×SS \times SS

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:22:03

AI一键生成CSS文字渐变代码,告别手动调试

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 请生成一个CSS文字渐变效果的代码,要求:1. 从左到右的渐变方向 2. 使用三种颜色过渡(#FF5733、#33FF57、#3357FF)3. 包含hover状态下…

作者头像 李华
网站建设 2026/6/15 13:33:12

3倍速备战2025Java面试:AI划重点技巧

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 构建一个Java面试备考效率工具,通过AI分析近千份2025年面试记录,实现:1) 智能识别高频考点图谱 2) 根据用户基础生成最优学习路径 3) 自动过滤过…

作者头像 李华