news 2026/5/1 11:05:49

Convolutional Bypasses Are Better Vision Transformer Adapters

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Convolutional Bypasses Are Better Vision Transformer Adapters

Abstract

在计算机视觉领域,“预训练—再微调”(pretrain-then-finetune)范式被广泛采用。然而,随着 Vision Transformer(ViT)规模呈指数级增长,完整微调因巨大的存储开销而变得不可行。受到语言模型中参数高效迁移学习(PETL)的启发,近期研究尝试在预训练的 ViT 中插入轻量级的适配模块(如 adapter 层或 prompt token),并仅微调这些模块,同时冻结预训练权重。然而,这些模块最初是为微调语言模型设计的,尽管在 ViT 上移植效果不错,但它们的设计缺乏针对视觉任务的先验知识。在本文中,我们提出在 ViT 中构建卷积旁路(Convolutional Bypasses,简称 Convpass)作为适配模块,仅引入极少量(不到模型参数的 0.5%)的可训练参数来适配大型 ViT。与其他 PETL 方法不同,Convpass 受益于卷积层硬编码的归纳偏置,因此更适合视觉任务,尤其是在低数据场景下。在 VTAB-1k 基准和小样本学习数据集上的实验结果表明,Convpass 的性能优于当前面向语言模型的适配模块,这展示了为视觉模型量身定制视觉导向的适配模块的必要性。

1 Introduction

在大规模数据集(如 ImageNet)上进行预训练,然后在下游任务上进行完整微调,已经成为获得视觉任务最新最优(SOTA)性能的事实标准范式(Kolesnikov et al. 2020)。然而,这一范式在存储方面并不高效——它要求为每个下游任务存储一个完整的模型。近期,随着 Vision Transformer(ViT)(Dosovitskiy et al. 2021)逐渐主导视觉领域,视觉模型的规模呈指数级增长(例如 ResNet-152 的 5800 万参数(He et al. 2016)对比 ViT-G 的 18.43 亿参数(Zhai et al. 2022)),这进一步催生了在 ViT 上开展参数高效迁移学习(PETL)的需求。

幸运的是,由于 Transformer 最初应用于自然语言处理(NLP)(Vaswani et al. 2017),基于大型预训练语言模型的 PETL 已经得到了充分研究(Houlsby et al. 2019;Hu et al. 2022;Li and Liang 2021;He et al. 2022a),并且这些方法可以很容易地移植到 ViT 中。

具体而言,这些 PETL 方法通过在预训练模型中插入轻量级适配模块、冻结预训练权重,并对这些模块进行端到端微调,从而适配下游任务。近期工作已经验证了这些 PETL 方法在 ViT 上的有效性(Jia et al. 2022;Zhang, Zhou, and Liu 2022),但我们提出一个问题:这些最初为语言模型设计的模块,对视觉模型来说也是最优的吗?众所周知,NLP 和视觉任务需要不同的归纳偏置,而归纳偏置会深刻影响模型架构的设计。通过从一种“解耦”的视角分析当前的 PETL 方法,我们认为这些方法——可称为“面向语言的模块”——也隐含了语言任务的归纳偏置,例如弱空间关系以及对可变长度输入的支持。因此,更适合 ViT 的适配模块应当体现视觉归纳偏置,例如空间局部性和二维邻域结构,我们将其称为“面向视觉的模块”。

当一个模型(例如 ViT)本身具有较弱的归纳偏置时,它可能需要大量数据从零开始学习这些偏置。这在预训练阶段或许不是严重问题,因为我们可以利用易获取的无标注数据进行自监督预训练(Bao, Dong, and Wei 2022;He et al. 2022b),或采用多模态预训练(Radford et al. 2021;Yu et al. 2022)。然而,下游任务的数据通常来自特定领域,往往昂贵或难以收集。尽管模型在预训练中已学习到部分视觉归纳偏置,但一个设计良好的、面向视觉的 PETL 模块能够进一步显著提升数据效率。

在本文中,我们提出在 ViT 中构建卷积旁路(Convolutional Bypasses,Convpass)作为适配模块。Convpass 是一个插入于 MHSA 或 MLP 块并与其并行的卷积瓶颈结构,能够“旁路”原始的 ViT 模块。它重构 token 序列的空间结构,并对图像 token 与 [cls] token 分别进行卷积操作。在微调过程中,仅这些 Convpass 模块和分类头会被更新。由于卷积层中硬编码的局部性归纳偏置,Convpass 能够更高效地捕获视觉信息,特别是在下游数据有限的情况下。正如图 1 所示,对于一个参数量为 86M 的 ViT-B,Convpass 仅引入并训练约 0.33M 新参数,却在 19 个任务组成的 VTAB 基准(Zhai et al. 2019)上取得优于全量微调和当前 SOTA 语言导向方法的表现。更多小样本学习的实验也表明,Convpass 在低数据场景下同样优于其他基线方法,并且可以直接用于视觉-语言模型(Radford et al. 2021),获得良好的领域泛化性能。

我们总结如下贡献:

  • 我们指出了当前 PETL 方法中视觉归纳偏置的不足。
  • 我们提出了 Convpass,这是一种简单但高效的 PETL 方法,通过可训练的卷积旁路模块来适配预训练 ViT 到视觉下游任务。
  • 实验结果显示 Convpass 超越了以往语言导向的方法,强调了为视觉模型设计视觉导向适配模块的必要性。

3 Methodology

3.1 Rethinking Adapters from an Unraveled View

由于 Adapters 与 MHSA/MLP 模块都包含跳跃连接(skip connections),我们可以将 ViT“解耦”为多个路径的集合。Veit, Wilber, and Belongie(2016)指出,原始网络可以被视为这些解耦路径的集成,因此我们在此通过观察这些路径来分析原始网络的性质。如图 2 所示,配备 Adapter 的 ViT 可以被视为由三种类型路径组成的集成:
(类型 I)冻结路径(Frozen paths):仅包含 ViT 的 MHSA/MLP 模块。这些路径不可训练,它们输出的总和与预训练 ViT 的输出严格一致。
(类型 II)MHSA–Adapter 路径:所有 MHSA 模块都位于第一个 Adapter 之前。
(类型 III)Adapter–MHSA 路径:至少有一个 MHSA 模块位于某个 Adapter 之后。

微调 Adapter 等价于通过类型 II 与 III 的路径来拟合输出的变化。在类型 II 路径中,对于相同的输入,最后一个 MHSA 模块的输出 token 是不变的,且之后不存在 token 之间的信息交换。因此,实际上只有类型 III 路径会改变预训练 ViT 的 token mixing(token 混合)行为

在类型 III 路径中,我们可以将所有位于某个 MHSA 模块之前的 Adapter 和 MLP 视为其 query/key/value 变换的一部分,即将这些变换从线性映射复杂化为
Q/K/V = f_q/k/v(X)
其中f是一个逐通道的 MLP。因此,微调类型 III 路径可以被看作是在微调具有复杂 Q/K/V 变换的 MHSA。

与此同时,由于 LoRA 是在低秩子空间中微调 Wq/vW_{q/v}Wq/v​,而 VPT 可被视为并行且带门控的 Adapter(He et al. 2022a),这些面向语言的 PETL 方法本质上都是依赖于调整 MHSA,以使其在下游任务中执行 token mixer 的功能。

然而,MHSA 缺乏视觉归纳偏置,因此在下游任务数据有限时可能表现不佳。

3.2 Adapting ViT via Convolutional Bypasses

近期关于修改 ViT 架构的研究表明,当训练数据不足时,在 ViT 中引入卷积操作能够提升性能(Dosovitskiy et al. 2021;Wu et al. 2021)。由于下游任务的数据通常有限,甚至是小样本数据,我们也可以在 PETL 的适配模块中引入卷积操作。

如图 3 所示,Convpass 模块由三层卷积组成:

  1. 一个 1×1 卷积,用于降低通道数;

  2. 一个 3×3 卷积,输入和输出通道数相同;

  3. 一个 1×1 卷积,用于恢复通道数。

由于 ViT 会将图像展平为一维token序列,我们在卷积前需要恢复其二维空间结构。其中,[cls] token被视为单独的一张图像。Convpass 模块与 MHSA/MLP 模块并行放置,其形式可以表示为:

其中s为超参数,LN为Layer Normalization ( Ba , Kiros , and Hinton 2016)。注意,Convpass模块类似于ResNet ( He et al.2016)的残差瓶颈块。如果忽略MHSA / MLP块,ViT将变为ResNet - like CNN。

从解耦的视角来看,我们可以发现,在每一层 Transformer 中,除了冻结路径之外,还有可训练的路径,这些路径要么仅包含 Convpass,要么同时包含 Convpass 和 MHSA,它们充当 token 混合器的角色。因此,原始的 Transformer 层被转换为 Transformer、类似 ResNet 的卷积神经网络(CNN)以及混合模型的集合。由于所有可训练路径都包含 Convpass 模块,微调过程能够充分利用 3×3 卷积固有的二维邻域结构。

4 Experiments

4.1 Transfer Learning on VTAB-1k Benchmark

首先,我们的方法在基本的迁移学习场景上进行了评估- -在各种数据流任务上微调预训练的模型。

Datasets.为了评估我们的方法在迁移学习上的性能,我们使用VTAB - 1k (翟志刚等2019)作为基准。VTAB - 1k基准测试集包含19个来自不同领域的图像分类任务,大致可分为自然图像、专业图像和结构化图像三类。每个分类任务只有1 000个训练样本,在超参数搜索时将其拆分为训练集( 800个)和验证集( 200个)。报告的测试集结果由在所有1 000个训练样本上训练的模型产生。

Baselines .

我们将方法与两类传统微调方法进行了对比:

  • 全量微调(Full finetuning):端到端优化所有参数;

  • 线性评估(Linear evaluation):冻结预训练主干网络,仅训练分类头。

此外,我们还对比了四种 PETL 方法:VPT、Adapter、LoRA 和 NOAH。对于我们的方法Convpass,我们还报告了一个简化变体Convpass-attn,该变体仅在 MHSA 模块旁插入 Convpass 模块。

为了清晰比较,我们进一步将 PETL 方法分为两类:

  • 同质 PETL(Homogeneous PETL):VPT、Adapter、LoRA 和 Convpass,仅包含一种 PETL 模块,网络架构在所有任务中保持一致;

  • 异质 PETL(Heterogeneous PETL):NOAH,专注于架构搜索以组合现有 PETL 模块,因此网络架构是动态的。

为了充分探索 Convpass 的能力,我们使用一个简单的模型选择策略构建了一个异质 PETL 方法,与 NOAH 进行对比。具体来说,对于每个任务,我们使用验证集从以下三个候选中选择一个:Convpass、Convpass-attn,以及Convpass-hybrid(在每个 MLP 模块旁的 Convpass 模块被 Adapter 模块替代,详情见第 4.4 节)。

当使用 Convpass-attn 或 Convpass-hybrid 时,由于 3×3 卷积较少,模型会更多依赖 MHSA,这可能有利于形状主导的任务(如 SVHN),因为 MHSA 偏向形状(shape-bias),而卷积偏向纹理(texture-bias)(Park and Kim 2022)。因此,模型选择实际上是在调整 MHSA 与卷积的比例。

在模型选择后,我们在完整训练集上重新训练模型,并报告测试集结果。我们将该异质 PETL 方法称为Convpass-MS

Setup.对于所有的方法,我们使用了在ImageNet - 21k ( Deng et al 2009)上有监督预训练的ViT - B / 16 ( Dosovitskiy et al 2021)。对于除NOAH外的所有方法,对网络进行100个历元的微调。此外,NOAH还训练了一个超网络500个历元。Adapter和Convpass的隐藏维数h以及LoRA的秩r均设置为8。VPT的瞬间长度l遵循原纸中的最佳配方。Convpass的超参数s大致在{ 0.01,0.0 }内搜索。1,1,10,100 }。在该场景下,Adapter和Convpass - attn的可训练参数数量相近,而Convpass的可训练参数数量略多于LoRA,但少于VPT。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 9:14:14

OpCore Simplify:重新定义黑苹果安装体验的智能助手

OpCore Simplify:重新定义黑苹果安装体验的智能助手 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的黑苹果配置而头疼吗&…

作者头像 李华
网站建设 2026/5/1 6:46:31

智慧农业新未来:数智赋能如何重塑农业生产模式?

近年来,国家持续加力推进智慧农业发展,中央一号文件多次明确“强化农业科技和装备支撑”,推动数智技术与农业生产深度融合。在这一趋势下,传统农业正加速向精准化、智能化转型,而烟台中盾信息科技有限公司凭借一体化田…

作者头像 李华
网站建设 2026/5/1 9:12:36

Mindspore compression API无法使用

问题描述 按照官网上的安装指南安装了mindspore,配置如下: image1470800 66.2 KB 整个mindspore可以import,但无法import compression的Pruner是为什么? 问题解答 如果想要使用模型压缩剪枝等功能,请使用MindSpore …

作者头像 李华
网站建设 2026/5/1 7:29:44

【开题答辩全过程】以 基于Java的失物招领系统设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华
网站建设 2026/5/1 8:43:40

无锡黑锋 HF73XXH 30V高压、1.5μA超低静态电流、300mA LDO稳压器技术解析

一、芯片核心定位HF73XXH 是一款面向高压供电系统的 超低静态电流、低压差线性稳压器 其核心优势在于 高达30V的宽输入电压范围、仅为1.5μA的典型静态电流 以及 300mA的输出驱动能力 专为由多节电池、适配器或工业电源供电,且对功耗有严格要求的常开型设备设计&…

作者头像 李华