Convolutional Bypasses Are Better Vision Transformer Adapters-编程实验室

Abstract

在计算机视觉领域，“预训练—再微调”（pretrain-then-finetune）范式被广泛采用。然而，随着 Vision Transformer（ViT）规模呈指数级增长，完整微调因巨大的存储开销而变得不可行。受到语言模型中参数高效迁移学习（PETL）的启发，近期研究尝试在预训练的 ViT 中插入轻量级的适配模块（如 adapter 层或 prompt token），并仅微调这些模块，同时冻结预训练权重。然而，这些模块最初是为微调语言模型设计的，尽管在 ViT 上移植效果不错，但它们的设计缺乏针对视觉任务的先验知识。在本文中，我们提出在 ViT 中构建卷积旁路（Convolutional Bypasses，简称 Convpass）作为适配模块，仅引入极少量（不到模型参数的 0.5%）的可训练参数来适配大型 ViT。与其他 PETL 方法不同，Convpass 受益于卷积层硬编码的归纳偏置，因此更适合视觉任务，尤其是在低数据场景下。在 VTAB-1k 基准和小样本学习数据集上的实验结果表明，Convpass 的性能优于当前面向语言模型的适配模块，这展示了为视觉模型量身定制视觉导向的适配模块的必要性。

1 Introduction

在大规模数据集（如 ImageNet）上进行预训练，然后在下游任务上进行完整微调，已经成为获得视觉任务最新最优（SOTA）性能的事实标准范式（Kolesnikov et al. 2020）。然而，这一范式在存储方面并不高效——它要求为每个下游任务存储一个完整的模型。近期，随着 Vision Transformer（ViT）（Dosovitskiy et al. 2021）逐渐主导视觉领域，视觉模型的规模呈指数级增长（例如 ResNet-152 的 5800 万参数（He et al. 2016）对比 ViT-G 的 18.43 亿参数（Zhai et al. 2022）），这进一步催生了在 ViT 上开展参数高效迁移学习（PETL）的需求。

幸运的是，由于 Transformer 最初应用于自然语言处理（NLP）（Vaswani et al. 2017），基于大型预训练语言模型的 PETL 已经得到了充分研究（Houlsby et al. 2019；Hu et al. 2022；Li and Liang 2021；He et al. 2022a），并且这些方法可以很容易地移植到 ViT 中。

具体而言，这些 PETL 方法通过在预训练模型中插入轻量级适配模块、冻结预训练权重，并对这些模块进行端到端微调，从而适配下游任务。近期工作已经验证了这些 PETL 方法在 ViT 上的有效性（Jia et al. 2022；Zhang, Zhou, and Liu 2022），但我们提出一个问题：这些最初为语言模型设计的模块，对视觉模型来说也是最优的吗？众所周知，NLP 和视觉任务需要不同的归纳偏置，而归纳偏置会深刻影响模型架构的设计。通过从一种“解耦”的视角分析当前的 PETL 方法，我们认为这些方法——可称为“面向语言的模块”——也隐含了语言任务的归纳偏置，例如弱空间关系以及对可变长度输入的支持。因此，更适合 ViT 的适配模块应当体现视觉归纳偏置，例如空间局部性和二维邻域结构，我们将其称为“面向视觉的模块”。

当一个模型（例如 ViT）本身具有较弱的归纳偏置时，它可能需要大量数据从零开始学习这些偏置。这在预训练阶段或许不是严重问题，因为我们可以利用易获取的无标注数据进行自监督预训练（Bao, Dong, and Wei 2022；He et al. 2022b），或采用多模态预训练（Radford et al. 2021；Yu et al. 2022）。然而，下游任务的数据通常来自特定领域，往往昂贵或难以收集。尽管模型在预训练中已学习到部分视觉归纳偏置，但一个设计良好的、面向视觉的 PETL 模块能够进一步显著提升数据效率。

在本文中，我们提出在 ViT 中构建卷积旁路（Convolutional Bypasses，Convpass）作为适配模块。Convpass 是一个插入于 MHSA 或 MLP 块并与其并行的卷积瓶颈结构，能够“旁路”原始的 ViT 模块。它重构 token 序列的空间结构，并对图像 token 与 [cls] token 分别进行卷积操作。在微调过程中，仅这些 Convpass 模块和分类头会被更新。由于卷积层中硬编码的局部性归纳偏置，Convpass 能够更高效地捕获视觉信息，特别是在下游数据有限的情况下。正如图 1 所示，对于一个参数量为 86M 的 ViT-B，Convpass 仅引入并训练约 0.33M 新参数，却在 19 个任务组成的 VTAB 基准（Zhai et al. 2019）上取得优于全量微调和当前 SOTA 语言导向方法的表现。更多小样本学习的实验也表明，Convpass 在低数据场景下同样优于其他基线方法，并且可以直接用于视觉-语言模型（Radford et al. 2021），获得良好的领域泛化性能。

我们总结如下贡献：

我们指出了当前 PETL 方法中视觉归纳偏置的不足。
我们提出了 Convpass，这是一种简单但高效的 PETL 方法，通过可训练的卷积旁路模块来适配预训练 ViT 到视觉下游任务。
实验结果显示 Convpass 超越了以往语言导向的方法，强调了为视觉模型设计视觉导向适配模块的必要性。

3 Methodology

3.1 Rethinking Adapters from an Unraveled View

由于 Adapters 与 MHSA/MLP 模块都包含跳跃连接（skip connections），我们可以将 ViT“解耦”为多个路径的集合。Veit, Wilber, and Belongie（2016）指出，原始网络可以被视为这些解耦路径的集成，因此我们在此通过观察这些路径来分析原始网络的性质。如图 2 所示，配备 Adapter 的 ViT 可以被视为由三种类型路径组成的集成：
（类型 I）冻结路径（Frozen paths）：仅包含 ViT 的 MHSA/MLP 模块。这些路径不可训练，它们输出的总和与预训练 ViT 的输出严格一致。
（类型 II）MHSA–Adapter 路径：所有 MHSA 模块都位于第一个 Adapter 之前。
（类型 III）Adapter–MHSA 路径：至少有一个 MHSA 模块位于某个 Adapter 之后。

微调 Adapter 等价于通过类型 II 与 III 的路径来拟合输出的变化。在类型 II 路径中，对于相同的输入，最后一个 MHSA 模块的输出 token 是不变的，且之后不存在 token 之间的信息交换。因此，实际上只有类型 III 路径会改变预训练 ViT 的 token mixing（token 混合）行为。

在类型 III 路径中，我们可以将所有位于某个 MHSA 模块之前的 Adapter 和 MLP 视为其 query/key/value 变换的一部分，即将这些变换从线性映射复杂化为
Q/K/V = f_q/k/v(X)
其中f是一个逐通道的 MLP。因此，微调类型 III 路径可以被看作是在微调具有复杂 Q/K/V 变换的 MHSA。

与此同时，由于 LoRA 是在低秩子空间中微调 Wq/vW_{q/v}Wq/v，而 VPT 可被视为并行且带门控的 Adapter（He et al. 2022a），这些面向语言的 PETL 方法本质上都是依赖于调整 MHSA，以使其在下游任务中执行 token mixer 的功能。

然而，MHSA 缺乏视觉归纳偏置，因此在下游任务数据有限时可能表现不佳。

3.2 Adapting ViT via Convolutional Bypasses

近期关于修改 ViT 架构的研究表明，当训练数据不足时，在 ViT 中引入卷积操作能够提升性能（Dosovitskiy et al. 2021；Wu et al. 2021）。由于下游任务的数据通常有限，甚至是小样本数据，我们也可以在 PETL 的适配模块中引入卷积操作。

如图 3 所示，Convpass 模块由三层卷积组成：

一个 1×1 卷积，用于降低通道数；
一个 3×3 卷积，输入和输出通道数相同；
一个 1×1 卷积，用于恢复通道数。

由于 ViT 会将图像展平为一维token序列，我们在卷积前需要恢复其二维空间结构。其中，[cls] token被视为单独的一张图像。Convpass 模块与 MHSA/MLP 模块并行放置，其形式可以表示为：

其中s为超参数，LN为Layer Normalization ( Ba , Kiros , and Hinton 2016)。注意，Convpass模块类似于ResNet ( He et al.2016)的残差瓶颈块。如果忽略MHSA / MLP块，ViT将变为ResNet - like CNN。

从解耦的视角来看，我们可以发现，在每一层 Transformer 中，除了冻结路径之外，还有可训练的路径，这些路径要么仅包含 Convpass，要么同时包含 Convpass 和 MHSA，它们充当 token 混合器的角色。因此，原始的 Transformer 层被转换为 Transformer、类似 ResNet 的卷积神经网络（CNN）以及混合模型的集合。由于所有可训练路径都包含 Convpass 模块，微调过程能够充分利用 3×3 卷积固有的二维邻域结构。

4 Experiments

4.1 Transfer Learning on VTAB-1k Benchmark

首先，我们的方法在基本的迁移学习场景上进行了评估- -在各种数据流任务上微调预训练的模型。

Datasets.为了评估我们的方法在迁移学习上的性能，我们使用VTAB - 1k (翟志刚等2019)作为基准。VTAB - 1k基准测试集包含19个来自不同领域的图像分类任务，大致可分为自然图像、专业图像和结构化图像三类。每个分类任务只有1 000个训练样本，在超参数搜索时将其拆分为训练集( 800个)和验证集( 200个)。报告的测试集结果由在所有1 000个训练样本上训练的模型产生。

Baselines .

我们将方法与两类传统微调方法进行了对比：

全量微调（Full finetuning）：端到端优化所有参数；
线性评估（Linear evaluation）：冻结预训练主干网络，仅训练分类头。

此外，我们还对比了四种 PETL 方法：VPT、Adapter、LoRA 和 NOAH。对于我们的方法Convpass，我们还报告了一个简化变体Convpass-attn，该变体仅在 MHSA 模块旁插入 Convpass 模块。

为了清晰比较，我们进一步将 PETL 方法分为两类：

同质 PETL（Homogeneous PETL）：VPT、Adapter、LoRA 和 Convpass，仅包含一种 PETL 模块，网络架构在所有任务中保持一致；
异质 PETL（Heterogeneous PETL）：NOAH，专注于架构搜索以组合现有 PETL 模块，因此网络架构是动态的。

为了充分探索 Convpass 的能力，我们使用一个简单的模型选择策略构建了一个异质 PETL 方法，与 NOAH 进行对比。具体来说，对于每个任务，我们使用验证集从以下三个候选中选择一个：Convpass、Convpass-attn，以及Convpass-hybrid（在每个 MLP 模块旁的 Convpass 模块被 Adapter 模块替代，详情见第 4.4 节）。

当使用 Convpass-attn 或 Convpass-hybrid 时，由于 3×3 卷积较少，模型会更多依赖 MHSA，这可能有利于形状主导的任务（如 SVHN），因为 MHSA 偏向形状（shape-bias），而卷积偏向纹理（texture-bias）（Park and Kim 2022）。因此，模型选择实际上是在调整 MHSA 与卷积的比例。

在模型选择后，我们在完整训练集上重新训练模型，并报告测试集结果。我们将该异质 PETL 方法称为Convpass-MS。

Setup.对于所有的方法，我们使用了在ImageNet - 21k ( Deng et al 2009)上有监督预训练的ViT - B / 16 ( Dosovitskiy et al 2021)。对于除NOAH外的所有方法，对网络进行100个历元的微调。此外，NOAH还训练了一个超网络500个历元。Adapter和Convpass的隐藏维数h以及LoRA的秩r均设置为8。VPT的瞬间长度l遵循原纸中的最佳配方。Convpass的超参数s大致在{ 0.01，0.0 }内搜索。1，1，10，100 }。在该场景下，Adapter和Convpass - attn的可训练参数数量相近，而Convpass的可训练参数数量略多于LoRA，但少于VPT。