news 2026/6/25 13:55:20

深度学习进阶(十三)可变形卷积 DCN

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度学习进阶(十三)可变形卷积 DCN

之前的内容里,我们提出了让 CNN 更灵活的想法:

能不能让“采样位置”本身,变成可以学习的?

在上一篇里,我们已经用可变形池化实现了这一目标。但同时我们也提到了,这并非终点:

既然池化可以偏移采样,那更基础的卷积本身为什么不能?

这便是 Deformable Convolutional Networks 里的核心创新:可变形卷积,简称 DCN。

1. 从卷积到可变形卷积#

1.1 传统卷积层的建模局限#

首先要强调的是:DCN 并不是一种独立的网络结构,而是一种针对卷积操作的改进方法。通常不会单独称一个模型为“DCN”,而是称其为:基于 DCN 的网络(DCN-based models),或者 DCN 算子。

因此,在展开 DCN 之前,我们先回顾一下 CNN 本身的核心操作:卷积
这里,我们以最常见的二维卷积展开:

再简单解释一下这个公式:

  1. :输入特征图。
  2. :当前输出位置。
  3. :卷积核的采样位置,决定偏移坐标 。
  4. :卷积核中的对应的卷积权重。

总结公式逻辑:通过输出位置和偏移的组合遍历所有卷积核覆盖位置,对相应元素进行线性组合。
如果你有些遗忘,可以在这里查看之前的介绍:图像处理基础。

继续,这里的关键点是:采样位置 是固定的。
比如一个 卷积核,每个输出位置只能采样自身和周围的总计 9 个元素。
从出发点来说,这本身是没有问题的,因为这就是我们根据图像的局部性、平移不变性先验引入的归纳偏置。

但还是老问题:

这种偏置太刚性了。

一个事实是:现实中的大多结构特征往往不是方格,小到弯曲的边缘、不规则纹理、大到人脸特征、动物体型等等。

又或者我们进行了数据增强,让目标发生形变、偏移、旋转、拉伸等等情况,这时重要信息就不再落在这些固定采样点上,从而导致表达能力受限。

虽然随着层级传播感受野会逐渐扩大,但局部感受野始终被定死是规则矩形。无法改变采样模式本身。
这便是 DCN 要解决的问题,它的基本逻辑和可变形池化相同,但拥有更多细节,实现的效果也更加灵活。

1.2 DCN 的发展和思想#

实际上,DCN 并非只有 Deformable Convolutional Networks这一孤篇,这篇起源论文只是它的第一版,我们可以称为 DCNv1 。
提出 DCNv1 的研究团队在 19 年又发布了新的论文:Deformable ConvNets v2: More Deformable, Better Results,进一步引入了modulation 机制,使得特征采样不仅位置可变,权重也具备自适应能力。
到这还没完,其实之后还有一系列其他基于 DCN 思想的变体,就连注意力机制也有吸收 DCN 思想的变体:Deformable Attention.
总结来说,DCN 这种可学习的采样思路不像我们之前介绍的某些具体模型,它开启了一类可学习采样机制的研究范式,并持续影响至今。

其核心改动和池化同理:在原有采样位置上,引入可学习偏移量。

这里的 就是通过一个额外分支预测得到的偏移量。
现在网格的每一个采样点都可以“挪位置”,有的点可能贴近边缘,有的点可能集中在关键区域,就像这样:

下面就来展开其具体逻辑。

2.DCNv1#

就像我们刚刚说的,DCN 的基本逻辑和可变形池化是一样的:

新增一个卷积分支,为每个采样点预测偏移量,再注入取样坐标,通过双线性插值取特征值。

我们展开一些细节:

2.1 偏移学习与注入#

DCN 在这步的具体逻辑如下:

如图所示,假设我们要实现一个 的可变形卷积:

  1. 主分支:仍然是传统的卷积核,输出通道数为 ,负责特征提取。
  2. 偏移分支:输出通道数为 ( 为采样点数,),负责预测每个采样点的偏移,即 。

这里的基本逻辑和上一篇是相同的,就不再赘述了,我们展开两个细节:

2.2 卷积和池化的对齐差异#

首先,因为是像素级对齐,我们不再需要像可变形池化那样通过 bin 内采样点的平均池化来聚合特征,得到用于注入的偏移量。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 13:50:40

Blue Topaz:让你的Obsidian笔记焕然一新的蓝色美学主题

Blue Topaz:让你的Obsidian笔记焕然一新的蓝色美学主题 【免费下载链接】Blue-Topaz_Obsidian-css A blue theme for Obsidian. 项目地址: https://gitcode.com/gh_mirrors/bl/Blue-Topaz_Obsidian-css 在Obsidian的众多主题中,Blue Topaz以其优…

作者头像 李华
网站建设 2026/6/25 13:50:07

嵌入式GUI开发实战:emWin文本显示与emWinSPY调试全解析

1. 嵌入式GUI开发中的文本显示:从基础到实战在嵌入式系统开发中,用户界面(UI)是连接用户与设备功能的核心桥梁。无论是工业控制面板上跳动的参数,还是智能手表上推送的通知,其背后都离不开一个基础而关键的…

作者头像 李华
网站建设 2026/6/25 13:43:11

实时语音AI:从ASR到语音代理的工程落地指南

1. 语音AI不再只是“能说”,它正在成为系统级基础设施你有没有试过在嘈杂的超市里,用手机对着货架上的商品念出一串带字母和数字的型号,比如“B204X-7R8K”,然后立刻得到准确识别?或者在跨国视频会议中,同事…

作者头像 李华
网站建设 2026/6/25 13:41:35

卡美德生物科普Noggin(诺金蛋白):解析发育与修复的核心调控机制

在生物技术与生物医药研究领域,蛋白靶点是调控机体生理、病理进程的核心关键。Noggin(诺金蛋白)作为一种高度保守的分泌型蛋白,在机体发育、组织修复及细胞分化等过程中扮演着不可或缺的角色。其独特的调控机制使其成为当前发育生…

作者头像 李华
网站建设 2026/6/25 13:39:36

免费开源视频对比工具完全指南:如何像专家一样发现视频差异

免费开源视频对比工具完全指南:如何像专家一样发现视频差异 【免费下载链接】video-compare Split-screen video comparison tool using FFmpeg and SDL2 项目地址: https://gitcode.com/gh_mirrors/vi/video-compare 还在为无法直观比较两个视频的质量差异而…

作者头像 李华