用ResNet-101和AGeM提升图像检索效果：一个PyTorch实战教程-编程实验室

用ResNet-101和AGeM提升图像检索效果：一个PyTorch实战教程

图像检索技术正经历从传统手工特征到深度学习的范式转移。当你在电商平台用手机拍下心仪的商品，几秒内就能找到同款链接；当你在相册中输入"海边日落"，系统能精准定位到相关照片——这些场景背后都离不开高效的图像检索系统。本文将带你用PyTorch实现2018年提出的Attention-aware Generalized Mean Pooling (AGeM)方法，这是一种在ResNet-101基础上融合注意力机制与广义平均池化的创新方案，在ROxford5k等基准数据集上曾刷新多项记录。

1. 环境准备与数据加载

首先需要配置适合深度学习开发的Python环境。推荐使用Anaconda创建独立环境：

conda create -n image_retrieval python=3.8 conda activate image_retrieval pip install torch==1.12.0+cu113 torchvision==0.13.0+cu113 -f https://download.pytorch.org/whl/torch_stable.html pip install opencv-python matplotlib tqdm

对于数据集，ROxford5k和RParis6k是图像检索领域的标准评测集，包含牛津和巴黎地标的查询-库图像对。下载后建议采用以下目录结构：

data/ ├── roxford5k/ │ ├── jpg/ # 存储所有图像 │ ├── gnd_roxford5k.pkl # 标注文件 │ └── ... └── rparis6k/ ├── jpg/ ├── gnd_rparis6k.pkl └── ...

提示：如果无法获取原始数据集，可用PyTorch的ImageFolder加载自定义数据集，但需确保图像尺寸统一调整为512x512像素

数据加载器的关键实现如下：

class LandmarkDataset(Dataset): def __init__(self, root_dir, transform=None): self.image_paths = glob.glob(f"{root_dir}/jpg/*.jpg") self.transform = transform or transforms.Compose([ transforms.Resize(512), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) def __getitem__(self, idx): img = Image.open(self.image_paths[idx]).convert('RGB') return self.transform(img) def __len__(self): return len(self.image_paths)

2. 网络架构实现

2.1 基础ResNet-101骨干

我们从PyTorch官方预训练的ResNet-101开始，移除最后的全连接层：

import torch.nn as nn from torchvision.models import resnet101 class BaseResNet(nn.Module): def __init__(self): super().__init__() resnet = resnet101(pretrained=True) self.features = nn.Sequential( resnet.conv1, resnet.bn1, resnet.relu, resnet.maxpool, resnet.layer1, resnet.layer2, resnet.layer3, resnet.layer4[:-1] # 排除最后一个残差块 ) def forward(self, x): return self.features(x)

2.2 注意力分支设计

AGeM的核心创新在于三个注意力单元的设计。以下是Att1模块的实现：

class Att1(nn.Module): def __init__(self, in_channels=1024): super().__init__() self.conv1 = nn.Conv2d(in_channels, 1024, 3, stride=2, padding=1) self.conv2 = nn.Conv2d(1024, 512, 3, padding=1) self.conv3 = nn.Conv2d(512, 512, 1) self.conv4 = nn.Conv2d(512, 2048, 1) self.bn = nn.ModuleList([nn.BatchNorm2d(d) for d in [1024,512,512,2048]]) self.activation = nn.ReLU(inplace=True) def forward(self, x): x = self.conv1(x) x = self.bn[0](x) x = self.activation(x) x = self.conv2(x) x = self.bn[1](x) x = self.activation(x) x = self.conv3(x) x = self.bn[2](x) x = self.activation(x) x = self.conv4(x) x = self.bn[3](x) return torch.sigmoid(x) # 输出注意力图

Att2_1和Att2_2采用更简单的结构：

class Att2(nn.Module): def __init__(self, in_channels): super().__init__() self.conv = nn.Conv2d(in_channels, in_channels, 1) self.bn = nn.BatchNorm2d(in_channels) def forward(self, x): return torch.sigmoid(self.bn(self.conv(x)))

2.3 GeM池化层实现

广义平均池化(GeM)是传统平均池化和最大池化的推广：

class GeM(nn.Module): def __init__(self, p=3, eps=1e-6): super().__init__() self.p = nn.Parameter(torch.ones(1)*p) self.eps = eps def forward(self, x): return F.avg_pool2d( x.clamp(min=self.eps).pow(self.p), (x.size(-2), x.size(-1)) ).pow(1./self.p)

3. 完整AGeM网络集成

将各组件集成为端到端网络：

class AGeMNet(nn.Module): def __init__(self): super().__init__() self.base = BaseResNet() self.att1 = Att1() self.att2_1 = Att2(1024) self.att2_2 = Att2(1024) self.gem = GeM() def forward(self, x): # 基础特征提取 x4_23 = self.base[:6](x) # B4的第23个残差块输出 x5_1 = self.base[6:7](x4_23) x5_2 = self.base[7:8](x5_1) x5_3 = self.base[8:](x5_2) # 注意力分支 a4_23 = self.att1(x4_23) a5_1 = self.att2_1(a4_23 * x5_1) a5_2 = self.att2_2(a5_1 * x5_2) # 注意力残差融合 x = x5_3 + a5_2 * x5_3 x = self.gem(x) return F.normalize(x.flatten(1), p=2, dim=1)

注意：实际实现时需要根据ResNet-101的精确块划分调整切片索引

4. 训练策略与损失函数

4.1 对比损失实现

AGeM原文采用对比损失(Contrastive Loss)，其PyTorch实现如下：

class ContrastiveLoss(nn.Module): def __init__(self, margin=1.0): super().__init__() self.margin = margin def forward(self, output1, output2, label): distance = F.pairwise_distance(output1, output2) loss = torch.mean( label * distance.pow(2) + (1-label) * F.relu(self.margin - distance).pow(2) ) return loss

4.2 训练流程关键参数

下表总结了训练过程中的关键超参数设置：

参数	推荐值	说明
学习率	1e-5	使用Adam优化器
Batch Size	32	根据GPU显存调整
边际值(margin)	0.7	对比损失超参数
训练轮次	100	早停法监控验证集
GeM初始p值	3.0	可训练参数

4.3 数据增强策略

为提高模型鲁棒性，建议采用以下增强组合：

train_transform = transforms.Compose([ transforms.RandomResizedCrop(512, scale=(0.8, 1.0)), transforms.RandomHorizontalFlip(), transforms.ColorJitter(0.2, 0.2, 0.2), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ])

5. 评估与优化技巧

5.1 评估指标实现

标准检索评估采用mAP(mean Average Precision)：

def compute_ap(ranks, relevant_idx): ap = 0.0 relevant_count = 0 for i, idx in enumerate(ranks): if idx in relevant_idx: relevant_count += 1 ap += relevant_count / (i + 1.0) return ap / max(1, len(relevant_idx))

5.2 常见问题排查

训练过程中可能遇到的典型问题及解决方案：

梯度消失问题：
- 现象：注意力图趋于均匀分布
- 解决：初始化注意力卷积层权重为0，使用较小的学习率
描述符退化：
- 现象：所有图像的描述符相似度接近
- 解决：加强数据增强，检查归一化操作
训练震荡：
- 现象：损失值波动剧烈
- 解决：减小batch size，添加梯度裁剪

5.3 性能优化技巧

混合精度训练：使用AMP(自动混合精度)加速训练

scaler = torch.cuda.amp.GradScaler() with torch.cuda.amp.autocast(): output = model(input) loss = criterion(output, target) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()