news 2026/5/1 8:55:02

ICCV 2025 | 革新 VLM 鲁棒性!AoS 用群体分布建模替代单样本微调,多模态对齐再升级

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ICCV 2025 | 革新 VLM 鲁棒性!AoS 用群体分布建模替代单样本微调,多模态对齐再升级

在人工智能飞速发展的今天,视觉语言模型(VLMs)如CLIP凭借强大的零样本学习能力惊艳了整个AI领域。然而,这些模型却像玻璃橱窗里的精致瓷器——看似完美,却极易被微小的对抗扰动击得粉碎。最新研究表明,在对抗攻击下,CLIP的零样本准确率甚至会暴跌至7.2%。如何为这些模型穿上"防弹衣"?ICCV 2025最新研究《Robustifying Zero-Shot Vision Language Models by Subspaces Alignment》给出了令人振奋的答案。

论文信息

题目: Robustifying Zero-Shot Vision Language Models by Subspaces Alignment
通过子空间对齐增强零样本视觉语言模型的鲁棒性
作者:Junhao Dong, Piotr Koniusz, Liaoyuan Feng, Yifei Zhang, Hao Zhu, Weiming Liu, Xinghua Qu, Yew-Soon Ong

为何传统方法难以御强敌?

传统对抗微调方法如同"盲人摸象",只关注单个样本的防御,却忽视了样本群体的整体分布趋势。就像只训练士兵应对如何应对单个敌人,却忽视了敌军的整体战术——这种逐样本对齐的方式,导致模型在面对未知攻击时依然脆弱不堪。

论文通过实验揭示了惊人现象:当扰动半径增大时,增强样本的对抗变体与干净样本的特征距离会急剧扩大(图1b)。这意味着,看似增强数据多样性的操作,反而可能成为对抗攻击的突破口。

图1:(a)不同扰动半径下的鲁棒精度对比 (b)特征距离差距随扰动的变化趋势

四大创新:从样本防御到分布级防御

1. 分布级对抗微调:从点到面的防御升级

论文开创性地提出将图像样本组表示为子空间,通过捕捉样本级对齐转变为分布级对齐。想象一下,传统方法是让每个学生单独模仿老师,而新方法则是让整个班级形成与教师团队相似的学习氛围——通过捕捉二阶统计量(协方差信息),模型能学到样本群体的整体趋势。

图2:(a)子空间将样本组视为整体进行对齐 (b)对抗子空间与干净子空间的对齐机制

2. 联合对抗子空间:双面夹击的防御策略

为了构建更具挑战性的"实战演练",论文设计了联合对抗生成方案,同时扰动视觉和文本分支。这种"双面夹击"的方式能生成更强大的对抗样本,就像军事训练中同时从陆地和空中发起模拟攻击,迫使防御系统发展出更全面的应对能力。

特别巧妙的是,方法还利用了对抗生成过程中的中间样本——这些"半对抗样本"包含了丰富的决策边界信息,就像攻防战中的侦察兵,能帮助模型提前预判敌人的进攻路线。

3. MaxExp:子空间计算的"高速引擎"

处理高维特征的子空间对齐时,传统SVD方法如同笨重的老式计算机——计算慢且不稳定。论文提出的MaxExp方法则像一台精密的跑车:

  • 仅需矩阵乘法,计算复杂度从O(d³)降至O(log η·log d)

  • 避免了SVD在奇异值接近时的梯度不稳定问题

  • 具有谱白化效应,能自动聚焦于关键特征维度

图3:MaxExp对特征谱的自动筛选效果,能聚焦于关键维度

4. 通用对抗集扰动:降本增效的防御智慧

为解决对抗样本生成成本过高的问题,论文提出通用对抗集扰动(UASP)策略。就像为一支部队配备通用装备而非为每个士兵定制,UASP为整个样本集学习共享扰动,在几乎不损失性能的情况下,将生成效率提升2.5倍(表11数据)。

方法全景:子空间对齐的工作流程

整个方法框架如同一个精密的防御系统,包含三个核心环节:

  1. 特征集合构建:为每张图像生成增强变体,为每个文本提示生成同义/反义变体,形成丰富的样本群体

  2. 子空间生成:通过MaxExp将样本群体转换为子空间表示,捕捉分布特征

  3. 双向对齐优化:不仅对齐图像与文本子空间,还将对抗子空间与干净子空间对齐,实现分布级鲁棒性

图4:子空间对齐方法的完整工作流程

实验验证:全面超越现有方法

在15个数据集上的实验结果令人瞩目:

  • 零样本对抗准确率从7.2%(原始CLIP)提升至43.8%,超越最佳基线4%

  • 在更大扰动半径下(ε=4/255)仍保持稳定性能

  • 对文本攻击和双层攻击的防御能力提升约5%

  • 扩展到BLIP和医学CLIP等模型同样有效

表1:15个数据集上的平均对抗准确率对比

特别值得注意的是在医学影像领域的应用——在胸部X射线诊断任务中,该方法显著提升了模型在对抗攻击下的AUC指标,为AI辅助医疗诊断的安全性提供了新保障。

图5:在胸部X射线数据集上的AUC性能对比

消融实验:揭秘各模块的贡献

通过严谨的消融实验,论文验证了各创新模块的必要性:

  • 中间对抗样本的使用带来2.3%的鲁棒性提升

  • 反义文本提示的引入使准确率提高1.8%

  • MaxExp相比SVD在保持性能的同时降低了计算成本

图6:各模块对模型性能的贡献分析

结语:从单点防御到体系化防御的跨越

这项研究的核心 insight 在于:对抗防御不应局限于单个样本,而应着眼于样本群体的分布规律。就像城市安防不能只依赖单个摄像头,而需要构建全方位的监控网络——子空间对齐为视觉语言模型提供了一套体系化的防御方案。

未来,这种分布级对齐的思想有望扩展到更多AI系统,让人工智能在复杂真实环境中既保持强大能力,又具备可靠的鲁棒性,为AI的安全落地铺平道路。

关注我们,了解更多大模型最新前沿的paper深度解读~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 2:09:26

语音克隆应用场景拓展:基于GPT-SoVITS的创新实践

语音克隆应用场景拓展:基于GPT-SoVITS的创新实践 在内容创作日益个性化的今天,声音正成为数字身份的重要组成部分。我们常常遇到这样的问题:一位播客作者希望用自己年轻时的声音继续讲述故事,但声带老化让录音变得吃力&#xff1b…

作者头像 李华
网站建设 2026/4/29 18:03:45

【2025最新】基于SpringBoot+Vue的协同过滤算法私人诊所管理系统管理系统源码+MyBatis+MySQL

摘要 随着信息技术的快速发展,医疗行业逐渐向数字化、智能化转型,私人诊所的管理需求日益复杂化。传统的诊所管理系统往往功能单一,无法满足个性化诊疗、患者数据分析和高效协同的需求。协同过滤算法的引入为诊所管理提供了新的思路&#xff…

作者头像 李华
网站建设 2026/5/1 6:09:50

用户管理怕繁琐?JNPF批量导入 + 分组管控 + 权限交接一键搞定

企业用户多、分组乱,批量新增要手动录入、离职交接怕遗漏权限? JNPF 用户管理功能直接破解运维难题 —— 支持用户批量导入导出、自定义分组管理,还能实现密码重置、岗位调整、工作交接等全场景操作,第三方同步功能更能打通钉钉 …

作者头像 李华
网站建设 2026/4/17 16:01:30

超详细版framebuffer入门:帧缓冲区结构体字段解析

从零开始理解Framebuffer:深入解析帧缓冲区结构体在嵌入式系统和底层图形开发的世界里,framebuffer是一个绕不开的核心概念。它不像现代图形API那样华丽炫目,却像一块沉默的基石,支撑着无数设备的屏幕显示——从工业HMI到车载仪表…

作者头像 李华
网站建设 2026/4/24 9:35:24

语音合成API开发指南:基于GPT-SoVITS构建服务接口

语音合成API开发指南:基于GPT-SoVITS构建服务接口 在短视频、AI主播和有声内容爆发式增长的今天,一个现实问题摆在开发者面前:如何用最少的数据快速生成自然、富有表现力的定制化语音?传统语音合成系统往往要求数小时标注语音与昂…

作者头像 李华
网站建设 2026/5/1 8:43:20

openssh-master代码分析-sandbox-solaris.c

欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 👇热门内容👇 python使用案例与应用_安城安的博客-CSDN博客 软硬件教学_安城安的博客-CSDN博客 Orbslam3&Vinsfusion_安城安的博客-CSDN博客 网络安全_安城安的博客-CSDN博客 教程_安城安的博客-CSDN博客 python办公…

作者头像 李华