news 2026/6/15 2:02:08

即插即用系列 | AAAI 2025 Mesorch:CNN与Transformer的双剑合璧:基于频域增强与自适应剪枝的篡改定位

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
即插即用系列 | AAAI 2025 Mesorch:CNN与Transformer的双剑合璧:基于频域增强与自适应剪枝的篡改定位

论文题目:Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization

论文作者:Xuekang Zhu, Xiaochen Ma, et al. (Sichuan University, MBZUAI, etc.)

论文地址:https://arxiv.org/abs/2412.13753

代码地址:https://github.com/scu-zjz/Mesorch


哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • 1. 核心思想
      • 2. 背景与动机
        • 2.1 文本背景与痛点
        • 2.2 动机图解分析
      • 3. 主要创新点
      • 4. 方法细节
        • 4.1 整体网络架构
        • 4.2 核心创新模块详解
        • 4.3 理念与机制总结
      • 5. 即插即用模块的作用
      • 6. 实验分析
      • 7. 获取即插即用代码关注 【AI即插即用】

1. 核心思想

本文提出了一种名为Mesorch的新型架构,旨在解决图像篡改定位(IML)中单一关注“微观痕迹(如噪声残留)”或“宏观语义(如物体不一致)”的局限性。作者引入了**“介观(Mesoscopic)”**这一物理学概念,主张在介观层面上同时编排微观细节和宏观布局。通过并行结合擅长捕捉微观特征的CNN和擅长提取宏观语义的Transformer,并辅以自适应加权模块和模型剪枝策略,Mesorch 在保持极高效率的同时,在多个基准数据集上刷新了 SOTA 性能。


2. 背景与动机

2.1 文本背景与痛点

图像篡改(如拼接、复制移动、修复)通常会留下人眼难以察觉的痕迹。现有的定位方法主要分为两类:

  • 微观流派(Microscopic):关注底层的信号异常(如RGB噪声、边缘伪影),通常使用 CNN。缺点是容易忽略图像的高层语义,对语义一致的篡改检测乏力。
  • 宏观流派(Macroscopic):关注物体级别的语义异常,通常使用 Transformer。缺点是缺乏捕捉细微边界伪影的能力,导致定位掩膜(Mask)边缘粗糙。

本文动机:绝大多数篡改(约80%)都是针对“物体”的,既改变了语义(宏观),又留下了边缘痕迹(微观)。因此,我们需要一个能同时“看清树木(细节)”和“看清森林(语义)”的介观架构。

2.2 动机图解分析


看图说话(动机分析):

  • 微观视角(结合 Figure 1):图1展示了拼接(Splicing)、复制移动(Copy-move)和修复(Inpainting)。红色箭头指向的区域存在细微的像素级伪影(Artifacts)。这说明微观特征对于发现“哪里不对劲”至关重要
  • 宏观视角(结合 Figure 2):图2展示了随机抽样的篡改图像。红线勾勒出的区域大多是完整的物体(如动物、人)。这说明篡改往往是“面向对象”的,宏观语义对于定位“哪个物体被改了”至关重要
  • 结论:单一视角无法兼顾。Mesorch 的目标就是建立一个“介观”桥梁,将图1的痕迹检测能力和图2的物体识别能力结合起来。

3. 主要创新点

  1. 介观编排架构 (Mesorch):首创性地提出并行使用 CNN 和 Transformer 分别处理高频(微观)和低频(宏观)信息,构建介观表示。
  2. 频域双流增强:利用 DCT(离散余弦变换)分离图像的高频和低频分量,分别作为 CNN 和 Transformer 的增强输入,从源头实现特征解耦。
  3. 自适应加权模块 (Adaptive Weighting Module):拒绝盲目的多尺度融合,设计了一个模块动态学习每个尺度(Scale)的重要性,实现像素级的加权融合。
  4. 二次剪枝策略 (Secondary Pruning):基于自适应权重,剔除贡献度低的尺度分支。这使得模型在推理阶段极其高效,参数量和 FLOPs 大幅降低。

4. 方法细节

4.1 整体网络架构

数据流详解:

  • 输入 (Input):原始 RGB 图像。
  • 频域分离 (DCT Module)
    • 输入图像经过 DCT 变换,分离出高频信息(边缘、噪声)和低频信息(颜色、结构)。
    • 分别与原图拼接,形成高频增强图I h I_hIh低频增强图I l I_lIl
  • 双流并行编码 (Parallel Encoders)
    • 微观流 (Local Feature Module):使用CNN (ConvNeXt)处理I h I_hIh,专注于捕捉微观纹理和伪影。输出 4 个尺度的特征图。
    • 宏观流 (Global Feature Module):使用Transformer (SegFormer)处理I l I_lIl,专注于捕捉宏观物体和语义一致性。同样输出 4 个尺度的特征图。
  • 多尺度解码与融合
    • 两个分支的特征图分别经过解码器,生成 8 个初始预测掩膜(4个来自CNN,4个来自Transformer)。
  • 自适应加权与输出
    • Adaptive Weighting Module计算这 8 个预测图的权重图。
    • 通过加权求和得到最终的篡改定位图P f i n a l P_{final}Pfinal
4.2 核心创新模块详解

模块 A:频域双流特征提取 (Frequency-enhanced Dual Stream)

  • 设计理念:利用频域特性强化模型偏好。
  • 工作机制
    • CNN 分支:吃的是“高频餐”。高频分量突出了图像的噪声模式和边界突变,这正是 CNN 卷积核擅长捕捉的局部特征。
    • Transformer 分支:吃的是“低频餐”。低频分量保留了物体的平滑结构和整体布局,有助于 Transformer 的 Self-Attention 机制建立长距离依赖,理解场景语义。

模块 B:自适应加权模块 (Adaptive Weighting Module)

  • 设计理念:不同尺度的特征贡献度不同。浅层特征定位边缘准,深层特征定位物体准。简单平均会引入噪声。
  • 内部结构
    • 输入:拼接后的 RGB + 高频图 + 低频图(9通道)。
    • 处理:经过一个轻量级网络,输出一个权重张量W ∈ R H 4 × W 4 × 8 W \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times 8}WR4H×4W×8
    • 作用:它为 8 个尺度的预测图(Local/Global 各4个)分配像素级的权重。这意味着对于某个像素,模型可以决定是更相信 CNN 的判断,还是 Transformer 的判断。

模块 C:基于权重的剪枝 (Pruning based on Weighting)

  • 机制总结
    • 训练完成后,统计每个尺度i ii的平均权重W i ‾ \overline{W_i}Wi
    • 剪枝条件:如果W i ‾ < ϵ \overline{W_i} < \epsilonWi<ϵ(阈值),说明该尺度对结果贡献微乎其微。
    • 结果:直接移除对应的编码器层和解码器分支。实验发现这能大幅减少计算量(FLOPs 减少约 50%)而几乎不损失精度(见 Table 3)。
4.3 理念与机制总结

Mesorch 的核心理念是**“各司其职,按需分配”**。

  • CNN 负责“显微镜”工作(查纹理)。
  • Transformer 负责“望远镜”工作(看语义)。
  • DCT 负责“分发弹药”(分配高低频信息)。
  • 自适应权重负责“指挥调度”(决定听谁的)。

最终,这个系统解决了“只见树木不见森林”或“只见森林不见树木”的问题,完美实现了介观层面的统一。


5. 即插即用模块的作用

  1. DCT 频域增强模块
    • 适用场景:任何涉及细微痕迹检测的任务,如 Deepfake 检测、隐写分析。
    • 应用:在输入网络前,先用 DCT 提取高频残差并拼接到 RGB 图上,通常能显著提升 CNN 对噪声的敏感度。
  2. 自适应多尺度加权 (Adaptive Weighting)
    • 适用场景:所有使用 FPN(特征金字塔)或 U-Net 结构的任务(分割、检测)。
    • 应用:不要直接sumconcat多尺度特征,尝试训练一个小的权重网络来动态融合它们,效果通常优于静态融合。
  3. 基于权重的剪枝策略
    • 适用场景:模型轻量化部署。
    • 应用:训练一个多分支的大模型,通过学习到的权重自动剪掉无用分支,是实现“无痛瘦身”的有效策略。

6. 实验分析

  • SOTA 性能 (Table 1)

    • 在 CASIAv1, Coverage, NIST16, Columbia 四大经典数据集上,Mesorch(特别是剪枝版 Mesorch-P)的 F1 分数均达到或接近最优。
    • 平均 F1:达到了0.7259,显著优于 TruFor (0.6826) 和 CAT-Net (0.6546)。
  • 鲁棒性 (Table 2)

    • 在面对高斯噪声、高斯模糊和 JPEG 压缩攻击时,Mesorch 展现出了极强的稳定性,性能下降幅度远小于对比模型。
  • 效率分析 (Table 3)

    • 剪枝的威力:Mesorch-P(剪枝版)的 FLOPs 仅为64.8 G,不到 MVSS-Net (171 G) 的一半,更是远低于 PSCC-Net (376 G)。参数量也得到了有效控制。这证明了其作为高效 Baseline 的潜力。

总结:Mesorch 是一篇不仅有“新概念”(介观),更有“实战价值”(高精度+低算力)的佳作。它证明了在图像取证领域,暴力堆叠大模型不如精心设计的混合架构有效。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 12:18:24

AI项目落地实战:基于DeepSeek-R1的代码生成系统部署教程

AI项目落地实战&#xff1a;基于DeepSeek-R1的代码生成系统部署教程 1. 这不是又一个“跑通就行”的模型&#xff0c;而是能写代码、解数学题、理清逻辑的轻量级助手 你有没有试过在本地部署一个真正能干活的AI代码助手&#xff1f;不是那种动辄7B起步、显存吃满还卡顿的“大…

作者头像 李华
网站建设 2026/6/10 18:12:10

Qwen3-4B-Instruct推理延迟高?GPU算力适配优化实战指南

Qwen3-4B-Instruct推理延迟高&#xff1f;GPU算力适配优化实战指南 1. 问题真实存在&#xff1a;不是你的错&#xff0c;是配置没对上 你刚部署完 Qwen3-4B-Instruct-2507&#xff0c;点开网页端输入“写一封简洁专业的项目启动邮件”&#xff0c;等了 8 秒才看到第一个字蹦出…

作者头像 李华
网站建设 2026/6/15 5:15:55

YOLOv10适合哪些场景?安防、交通、工业全行

YOLOv10适合哪些场景&#xff1f;安防、交通、工业全行 YOLOv10不是又一个“版本迭代”的噱头&#xff0c;而是一次真正面向工程落地的架构重构。它砍掉了沿用十年的NMS后处理环节&#xff0c;让目标检测从“预测筛选”变成真正的端到端推理——输入一张图&#xff0c;直接输出…

作者头像 李华
网站建设 2026/6/14 3:13:10

5个革命性功能的智能爬虫:多平台数据采集终极解决方案

5个革命性功能的智能爬虫&#xff1a;多平台数据采集终极解决方案 【免费下载链接】MediaCrawler-new 项目地址: https://gitcode.com/GitHub_Trending/me/MediaCrawler-new 在数字化时代&#xff0c;社交媒体数据抓取已成为企业决策和市场分析的核心能力。面对日益复杂…

作者头像 李华
网站建设 2026/6/10 16:11:28

Matlab:spmd并行语句介绍

文章目录 一、核心概念解释1. **SPMD 模型**2. **关键全局变量&#xff08;在 spmd 块内自动可用&#xff09;**3. **运行机制** 二、基本语法三、基础示例示例 1&#xff1a;打印每个 worker 的 ID示例 2&#xff1a;每个 worker 计算局部和 四、高级用法与核心技巧1. **分布式…

作者头像 李华
网站建设 2026/6/15 8:37:30

如何在远程服务器运行麦橘超然?SSH隧道详解

如何在远程服务器运行麦橘超然&#xff1f;SSH隧道详解 1. 为什么需要SSH隧道&#xff1a;远程部署AI绘图服务的真实困境 你刚在服务器上成功启动了麦橘超然——那个基于Flux.1的离线图像生成控制台&#xff0c;终端里清晰地显示着 Running on public URL: http://0.0.0.0:60…

作者头像 李华