一、引言:YOLO11 Neck的“一小时难题”,以及为什么FPT是答案
如果你在2026年还在做目标检测相关的工作,大概率逃不开一个名字:YOLO11。自2024年9月Ultralytics在YOLO Vision 2024大会上发布以来,YOLO11凭借C3k2模块、SPPF快速空间金字塔池化以及C2PSA空间注意力机制迅速占领了各大数据集排行榜。根据Ultralytics官方数据,YOLO11m在COCO上以比YOLOv8m少22%的参数实现了更高的mAP。2026年3月12日,MLCommons正式宣布YOLO11被采纳为MLPerf Inference v6.0 Edge套件官方目标检测模型,YOLO11l变体在COCO上达到53.4% mAP,以仅25.3M参数超越了YOLOv8l的52.9%,被官方评价为“参数效率和原始精度的重大飞跃”。
但做过实际项目的人都知道一个残酷真相:原生YOLO11的Neck不够用。
YOLO11的Neck沿用经典的PANet(Path Aggregation Network)结构,由C3k2模块堆叠而成,在Fusion层采用Concat拼接,走的是一条“自顶向下 + 自底向上”的双向路径。这个设计的哲学可以概括为八个字——层间强交互,层内弱表达。也就是说,PANet在跨层信息传递上做了大量工作,但在每一层内部,特征交互几乎完全依赖卷积操作的局部感受野。
这就带来了一系列问题:小目标检测时高层特征语义丰富但空间分辨率不足;大目标检测时低层特征空间信息充足但语义表征薄弱;中等尺度目标在跨层传递中信息衰减严重,成为“夹心层