YOLO26改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 （附网络详解和完整配置步骤）-编程实验室

一、本文介绍

本文记录的是将ConvNeXt V2应用到YOLO26中的改进方法研究。

本文将ConvNeXt V2应用于YOLO26，一方面利用全卷积掩码自动编码器在训练时优化特征学习，减少模型对大规模标注数据的依赖；另一方面，通过全局响应归一化层增强特征竞争，缓解特征坍塌问题，提高特征多样性。

本文在YOLO26的基础上配置了原论文中convnextv2_atto', 'convnextv2_femto,convnextv2_pico,convnextv2_nano,convnextv2_tiny,convnextv2_base,convnextv2_large,convnextv2_huge八种模型，以满足不同的需求。

文章目录

一、本文介绍
二、ConvNeXt V2介绍
- 2.1 设计出发点
- 2.2 结构原理
- 2.3 优势
三、ConvNeXt V2的实现代码
四、修改步骤
- 4.1 修改一
- 4.2 修改二
- 4.3 修改三
五、yaml模型文件
- 5.1 模型改进⭐
六、成功运行结果

二、ConvNeXt V2介绍

ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

ConvNeXt V2是一种全新的ConvNet模型家族，旨在提升纯卷积神经网络在各类下游任务中的性能。它在模型结构设计上有独特的出发点，结构原理涉及多个创新组件，并且在性能上展现出显著优势。

2.1 设计出发点

架构与自监督学习结合的挑战：视觉识别领域中，神经网络架构和自监督学习框架对模型性能至关重要。将ConvNeXt与掩码自动编码器（MAE）结合时存在挑战，MAE的编解码器设计针对Transformer的序列处理能力优化，与使用密集滑动窗口的标准ConvNets不兼容。直接将两者结合，未考虑架构与训练目标的关系，难以达到最优性能。先前研究也表明，用基于掩码的自监督学习训练ConvNets存在困难。
特征坍塌问题：对ConvNeXt进行特征空间分析时发现，直接在掩码输入上训练ConvNeXt，MLP层存在特征坍塌现象，即许多特征图处于死亡或饱和状态，通道间激活冗余，这影响了模型的性能。