别再傻傻分不清了！用大白话和代码图解FPN与PAN在YOLOv5中的区别-编程实验室

图解FPN与PAN：用代码和可视化理解YOLOv5中的特征金字塔网络

第一次接触目标检测时，看到FPN、PAN这些缩写总让人头大。作为YOLOv5等现代检测框架的核心组件，它们究竟如何工作？为什么要在网络中设计这种"金字塔"结构？本文将通过三组对比图和可运行的代码片段，带你看懂这两种特征融合方式的本质差异。

1. 为什么需要特征金字塔？

想象你要在照片中同时检测远处的小狗和近处的汽车。小狗可能只有几十像素大小，而汽车占据了大半个画面。传统卷积神经网络存在一个根本矛盾：深层卷积能识别复杂特征（比如车轮或狗耳朵），但会丢失位置细节；浅层网络保留像素级精度，却难以理解高级语义。

这就是特征金字塔网络（Feature Pyramid Network）要解决的核心问题。通过构建多尺度特征图，让网络在不同层级"看到"不同大小的目标。FPN和PAN都采用金字塔结构，但数据流动方向截然不同：

# 伪代码：特征金字塔的基本结构 backbone = ResNet() # 主干网络提取特征 fpn = FPN(backbone) # 构建金字塔 detector = Head(fpn) # 多尺度检测

2. FPN：自顶向下的特征融合

FPN像一位从山顶向下走的向导，将高层的语义信息逐步传递到低层。其核心是三个关键操作：

自下而上：骨干网络（如ResNet）自然生成的特征层级
自上而下：通过上采样放大高层特征图
横向连接：将上采样结果与同尺寸的浅层特征相加

# FPN的PyTorch风格伪代码 class FPN(nn.Module): def forward(self, features): # features = [C3, C4, C5] 不同层级的特征 P5 = conv1x1(features[-1]) # 最高层 P4 = conv1x1(features[-2]) + upsample(P5) # 横向连接 P3 = conv1x1(features[-3]) + upsample(P4) # 继续向下 return [P3, P4, P5] # 多尺度输出

FPN的典型数据流如下图所示（建议对照代码理解）：

高层特征(C5) → 上采样 → 与C4融合 → 上采样 → 与C3融合

FPN优势：

增强浅层特征的语义表达能力
保持高层特征的空间精度
在Mask R-CNN等框架中表现优异

3. PAN：双向流动的增强金字塔

PAN在FPN基础上增加了一条自底向上的路径，形成完整的"环状"结构。这种设计源于一个重要观察：低层特征的空间信息对精确定位同样重要。

与FPN的关键差异：

特性	FPN	PAN
主路径方向	仅自上而下	双向（上+下）
融合操作	特征相加	特征拼接
计算复杂度	较低	较高
适用场景	通用目标检测	小物体密集场景

# PAN的改进部分伪代码 class PAN(nn.Module): def forward(self, fpn_features): # fpn_features = [P3, P4, P5]来自FPN N3 = conv3x3(P3) # 最底层 N4 = conv3x3(P4) + downsample(N3) # 自下而上 N5 = conv3x3(P5) + downsample(N4) return [N3, N4, N5] # 增强后的特征

YOLOv4/YOLOv5采用的PANet结构示意图：

FPN路径：C5 → P5 → P4 → P3 （自上而下） PAN路径：P3 → N3 → N4 → N5 （自下而上）

4. 实战对比：YOLOv5中的实现差异

打开YOLOv5的models/yolo.py，可以看到两者的具体实现。关键区别在于Concat和Add操作：

# YOLOv5的PAN层部分源码 class Concat(nn.Module): def forward(self, x): return torch.cat(x, dim=1) # PAN使用拼接 class Add(nn.Module): def forward(self, x): return x[0] + x[1] # FPN使用相加

性能影响实测：

在COCO数据集上，PAN相比FPN能提升约1-2%的mAP
小物体检测（如行人）的召回率提升更明显
推理速度下降约15%，模型体积增加约20%

5. 如何选择？经验与建议

经过多个项目的实践验证，我的选择策略是：

优先PAN的场景：
- 无人机航拍图像检测
- 医学影像中的微小病灶识别
- 需要高精度定位的任务
选择FPN的场景：
- 实时视频流分析
- 嵌入式设备部署
- 大目标为主的场景（如交通监控）

调优技巧：

当显存不足时，可以缩减PAN的通道数
添加注意力机制（如CBAM）能进一步提升PAN效果
对于自定义数据集，建议先用FPN快速验证

从理论到实战：机器学习西瓜书代码实战终极指南 [特殊字符]

从理论到实战：机器学习西瓜书代码实战终极指南 🚀 【免费下载链接】machine-learning-toy-code 《机器学习》（西瓜书）代码实战项目地址: https://gitcode.com/gh_mirrors/ma/machine-learning-toy-code 还在为机器学习理论…

李华

5分钟搞定Windows运行库问题：VisualCppRedist AIO完整解决方案指南

5分钟搞定Windows运行库问题：VisualCppRedist AIO完整解决方案指南【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist VisualCppRedist AIO是Windows系统…

李华

基于OpenClaw与SQLAlchemy构建企业级AI运营助手：从概念验证到生产部署

1. 项目概述：一个面向高管的公司运营AI助手如果你是一位CEO、创始人或者高级运营负责人，每天被各种会议、任务、订单风险和团队状态信息淹没，那么你肯定幻想过有一个能理解你自然语言指令的“数字副手”。这个副手不仅能快速回答“公司现在整…

李华

MedSAM：医学影像分割的终极解决方案，如何让AI理解医生的语言

MedSAM：医学影像分割的终极解决方案，如何让AI理解医生的语言【免费下载链接】MedSAM Segment Anything in Medical Images 项目地址: https://gitcode.com/gh_mirrors/me/MedSAM 在医学影像分析领域，精准分割一直是临床诊断和研究的核…

李华

2026年视频文字提取器有哪些？5款软件排行榜对比指南

做短视频运营或内容创作的时候，经常卡在这几个点上：素材文案需要快速提取、会议录音要转成笔记、长视频想生成字幕却操作复杂。尤其是在移动端和轻工作流的场景下，传统桌面软件显得有些重。我下面重点介绍一款叫提词匠的微信小程序&#xff0…

李华