news 2026/6/15 16:23:42

Focus-Scan-Refine From Human Visual Perception to Efficient Visual Token Pruning

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Focus-Scan-Refine From Human Visual Perception to Efficient Visual Token Pruning

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Authors:Enwei Tong, Yuanchao Bai, Yao Zhu, Junjun Jiang, Xianming Liu

Deep-Dive Summary:

Focus-Scan-Refine: 从人类视觉感知到高效视觉 Token 剪枝

摘要

视觉语言模型(VLMs)通常会产生海量的视觉 Token,这显著增加了推理延迟和显存占用。虽然无需训练的 Token 剪枝提供了一种实际的解决途径,但现有的方法在极端压缩条件下仍难以平衡局部证据(local evidence)和全局上下文(global context)。本文提出了Focus-Scan-Refine (FSR)框架,这是一个受人类启发、即插即用的剪枝框架,它模拟了人类回答视觉问题的过程:首先**聚焦(Focus)关键证据,然后在需要时扫描(Scan)全局,最后通过聚合相关细节来精炼(Refine)**扫描得到的上下文。

FSR 首先结合视觉显著性和指令相关性来聚焦关键证据,避免了对视觉显著但与查询无关区域的偏见;接着,它根据已聚焦的集合扫描补充上下文,选择与聚焦证据差异最大的 Token;最后,FSR 在不增加 Token 预算的情况下,通过基于相似性的分配和分数加权合并,将附近的注入 Token 聚合到扫描锚点中。实验表明,FSR 在多个 VLM 基准测试中均显著优于现有的 SOTA 剪枝方法。

2. 相关工作

  • 基于注意力的剪枝:如 FastV、LLaVA-PruMerge 和 SparseVLM。这些方法利用跨注意力或 [CLS] 注意力来评估 Token 重要性,但容易偏向显著区域,忽略细微的全局信息。
  • 基于相似性的剪枝:如 DivPrune 和 DART。这些方法通过特征空间中的多样性选择来减少冗余,侧重于全局覆盖,但往往忽略了精确推理所需的细粒度局部细节。
  • 联合注意力-相似性剪枝:如 VisionZip 和 CDPruner。虽然它们尝试权衡两者,但在 Token 预算极度有限时,仍难以同时保留最关键的局部证据和必要的全局上下文。

4. 实验

4.1 实验设置

  • 模型:LLaVA 系列 (1.5, NeXT, Video) 以及 Qwen2.5-VL。
  • 基准:包括 VQAv2、GQA、ScienceQA、POPE、MME、MMBench 等图像任务,以及 MLVU、MVBench 等视频任务。
  • 默认参数α = 3 , β = 1 , ρ = 0.9 , κ = 1 \alpha = 3, \beta = 1, \rho = 0.9, \kappa = 1α=3,β=1,ρ=0.9,κ=1

4.2 主要结果

如下表所示,在 LLaVA-1.5-7B 上,当保留 64 个 Token(压缩掉 88.9%)时,FSR 在 MM-Vet 上的表现优于所有竞争方法,且在各基准测试中保持了最高且最稳定的平均性能。

表 1:LLaVA-1.5-7B 上不同剪枝方法的性能对比。

方法VQA V2GQAPOPEMMEAvg.
LLaVA-1.5-7B (100% tokens)78.561.985.91862100%
保留 192 Tokens
CDPruner (NIPS25)77.260.387.3178498.5%
FSR (Ours)77.460.287.1180399.1%
保留 64 Tokens
CDPruner (NIPS25)75.458.687.5171095.7%
FSR (Ours)75.458.285.7170196.1%
以下是该论文部分的中文摘要,保留了原始的 Markdown 表格格式,并确保所有数学表达式符合格式要求。

4.2.1 标准基准测试中的 FSR

我们首先在 LLaVA-1.5-7B 上评估了 FSR。表 1 展示了在三种标记预算(保留 192、128 和 64 个视觉标记,分别对应66.7 % 66.7\%66.7%77.8 % 77.8\%77.8%88.9 % 88.9\%88.9%的减少率)下不同修剪方法的性能。当保留 192 个标记时,FSR 实现了99.1 % 99.1\%99.1%的最高平均分,优于 CDPruner (98.5 % 98.5\%98.5%) 和 VisPruner (98.2 % 98.2\%98.2%)。

Table 2 Performance comparison of different pruning methods on LLaVA-NeXT-7B. Avg. represents the average relative performance maintained across all tested benchmarks compared to the unpruned baseline. The best results are highlighted in bold.

MethodVQA V2GQASQA IMG Upper Bound, AllVQA TextPOPEMMEMMBENMMBCNMMVetAvg.
LLaVA-NeXT-7B81.362.567.660.386.8188365.957.439.2100.0%
Retain 960 Tokens (↓ 66.7%)
HoloV (NIPS2025)78.961.366.257.486.9171350.942.334.491.7%
VisPruner (ICCV2025)80.062.168.260.287.1180765.858.238.599.2%
CDPruner (NIPS2025)80.562.768.559.187.1179966.957.639.099.4%
FSR80.562.668.560.387.1180666.958.341.1100.0%
Retain 640 Tokens (↓ 77.8%)
FastV (ECCV24)77.058.967.458.179.5166763.153.539.594.4%
DivPruner (CVPR25)79.361.967.857.086.9173465.857.338.097.7%
HoloV (NIPS2025)79.361.263.857.686.2176864.356.738.997.0%
VisPruner (ICCV2025)78.861.168.360.085.9182864.957.338.598.5%
CDPruner (NIPS2025)79.862.668.058.587.3180066.257.641.099.3%
FSR79.762.367.960.087.0183366.357.941.999.9%
Retain 320 Tokens (↓ 88.9%)
FastV (ECCV24)61.549.866.652.249.5130253.442.520.074.9%
DivPruner (CVPR25)77.261.167.756.284.7168763.955.734.895.2%
HoloV (NIPS2025)77.259.866.257.083.4175365.557.036.596.0%
VisPruner (ICCV2025)75.958.768.659.081.4175363.855.836.395.4%
CDPruner (NIPS2025)78.461.467.757.487.3177365.455.636.797.3%
FSR77.960.968.158.186.1178364.956.139.397.6%

在保留 64 个标记(减少88.9 % 88.9\%88.9%)的极端设置下,FSR 表现出卓越的稳定性,保留了96.1 % 96.1\%96.1%的原始性能,在 MMVet 和 MMBench-EN 等复杂推理任务中持续领先。这表明 FSR 有效平衡了显著的局部细节与背景上下文,保持了语义的完整性。

4.2.2 高分辨率输入的 FSR

我们将 FSR 应用于 LLaVA-NeXT-7B,并固定输入分辨率为672 × 672 672 \times 672672×672(共 2,880 个视觉标记)。如表 2 所示,在保留 960 个标记(减少66.7 % 66.7\%66.7%)时,FSR 达到了与全标记上限相当的性能。即使在最激进的保留 320 个标记(减少88.9 % 88.9\%88.9%)的情况下,FSR 仍以97.6 % 97.6\%97.6%的性能保持率领先。这证明 FSR 能够有效利用高分辨率图像提供的细粒度特征,在受限的标记预算下保持高精度。

4.2.3 先进架构的 FSR

我们在 Qwen2.5-VL-7B 上对 FSR 进行了评估,该模型本身支持动态分辨率和标记合并。尽管基准更强,FSR 仍实现了最佳的精度-效率权衡。在标记减少80 % 80\%80%90 % 90\%90%的情况下,FSR 分别保留了91.9 % 91.9\%91.9%84.0 % 84.0\%84.0%的原始性能,显著优于 HoloV 和 FastV。在 MMVet 和 MME 等需要综合多模态推理的基准测试上,FSR 的优势尤为明显。

4.2.4 视频理解的 FSR

在 LLaVA-Video-7B-Qwen2 上的测试显示,FSR 在50 % 50\%50%80 % 80\%80%的修剪比例下均优于 HoloV。特别是在60 % 60\%60%的修剪率下,FSR 保留了99.6 % 99.6\%99.6%的原始性能。这表明 FSR 将平衡局部证据与全局上下文的策略成功扩展到了时间维度,能够稳健地保留关键的时空线索。

4.2.5 大规模模型的 FSR

在 LLaVA-1.5-13B 和 LLaVA-NeXT-13B 上的结果如表 5 和表 6 所示。在 LLaVA-NeXT-13B 中,当保留 640 个标记(减少77.8 % 77.8\%77.8%)时,FSR 的平均得分达到101.7 % 101.7\%101.7%,甚至略高于未修剪的基准。这表明 FSR 通过过滤冗余标记减少了噪声,从而实现了更准确的推理。

Table 3 Performance comparison of different pruning methods on Qwen2.5-VL-7B. Avg. represents the average relative performance maintained across all tested benchmarks compared to the unpruned baseline. The best results are highlighted in bold.

MethodGQASQAIMGVQATextPOPEMMEMMBENMMBCNMMVetAvg.
Qwen2.5-VL-7B60.888.977.686.5232883.581.464.4100.0%
Reduction Ratio: ↓ 80%
FastV (ECCV24)56.883.170.781.0210276.875.457.492.0%
HoloV (NIPS2025)59.587.873.885.1217981.178.955.595.6%
FSR60.287.976.086.1225881.579.161.797.9%
Reduction Ratio: ↓ 60%
FastV (ECCV24)56.383.168.880.2206375.773.551.489.8%
HoloV (NIPS2025)59.087.271.984.4217779.777.852.194.2%
FSR59.987.575.185.2222780.378.557.596.4%
Reduction Ratio: ↓ 80%
FastV (ECCV24)54.282.261.077.5191572.570.044.784.6%
HoloV (NIPS2025)57.186.064.581.3200876.373.445.388.6%
FSR58.386.770.383.2208978.774.949.891.9%
Reduction Ratio: ↓ 90%
FastV (ECCV24)50.880.053.072.21794.768.265.137.178.3%
HoloV (NIPS2025)53.684.455.776.4183172.368.938.982.1%
FSR54.184.561.077.3190771.768.341.484.0%

Table 4 Performance comparison of different pruning methods on LLaVA-Video-7B-qwen2 with 32 frames per video. Avg. represents the average percentage of performance maintained. “w/o” and “w/” indicate without and with subtitles.

Method MetricMMVU valMMWorld testMLVU testMVBench testall+w/oall+w/longAvg.
Upper Bound: All Tokens (100%)
LLaVA-Video-7B-qwen244.030.050.160.862.662.451.8100%
Reduction Ratio: ↓ 50%
HoloV (NIPS2025)44.231.549.159.461.761.651.399.2%
FSR46.031.150.259.761.962.051.6100.3%
Reduction Ratio: ↓ 60%
HoloV (NIPS2025)43.430.849.159.361.461.051.398.5%
FSR44.631.150.059.461.661.552.299.6%
Reduction Ratio: ↓ 70%
HoloV (NIPS2025)43.731.048.559.060.661.251.298.2%
FSR44.631.647.659.261.361.552.098.9%
Reduction Ratio: ↓ 80%
HoloV (NIPS2025)44.032.946.558.360.460.851.698.0%
FSR43.433.346.558.560.260.952.398.2%

4.3 效率分析

在单张 NVIDIA RTX 3090 GPU 上,当仅保留 64 个标记时,FSR 显著节省了资源:FLOPs 减少了约75 % 75\%75%,KV 缓存内存压缩了近9 × 9 \times9×,预填充阶段实现了3.9 × 3.9 \times3.9×的提速。FSR 在所有对比方法中实现了最佳的精度-效率权衡,具有最低的解码延迟(22.317 ms),且引入的系统开销微乎其微。

Original Abstract:Vision-language models (VLMs) often generate massive visual tokens that greatly increase inference latency and memory footprint; while training-free token pruning offers a practical remedy, existing methods still struggle to balance local evidence and global context under aggressive compression. We propose Focus-Scan-Refine (FSR), a human-inspired, plug-and-play pruning framework that mimics how humans answer visual questions: focus on key evidence, then scan globally if needed, and refine the scanned context by aggregating relevant details. FSR first focuses on key evidence by combining visual importance with instruction relevance, avoiding the bias toward visually salient but query-irrelevant regions. It then scans for complementary context conditioned on the focused set, selecting tokens that are most different from the focused evidence. Finally, FSR refines the scanned context by aggregating nearby informative tokens into the scan anchors via similarity-based assignment and score-weighted merging, without increasing the token budget. Extensive experiments across multiple VLM backbones and vision-language benchmarks show that FSR consistently improves the accuracy-efficiency trade-off over existing state-of-the-art pruning methods. The source codes can be found at https://github.com/ILOT-code/FSR

PDF Link:2602.05809v1

部分平台可能图片显示异常,请以我的博客内容为准

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 7:05:39

详细说明依赖项和配置

说明: 1.Spring Framework版本:7.0.2 2.开发框架:Spring boot(版本3.5.6) 3.开发工具:eclipse 4.jdk版本:25 5.操作系统:debian12 详细说明依赖项和配置 如前一节所述,您可以将Bean属性和构造器参数定义为对其他受管理Bean(合作者)的引用,或定义为内联定义的…

作者头像 李华
网站建设 2026/6/15 13:50:33

高温验质,精准赋能——陶瓷材料高温电阻率测试的隐形力量

从航空航天的极端工况到新能源电站的核心组件,从第三代半导体的精密封装到核能工程的关键防护,陶瓷材料凭借其卓越的耐高温性、绝缘性与机械强度,成为支撑高端制造与尖端科技前行的“隐形基石”。而这份可靠性能的背后,离不开一项…

作者头像 李华
网站建设 2026/6/15 13:50:41

Bamtone ICT系列:PCB离子污染检测设备优选

PCB板的清洁度直接影响着产品的可靠性和寿命,离子污染残留可能导致电路腐蚀、短路等严重问题,因此离子污染测试成为确保产品质量的关键环节。作为国内领先的PCB测量仪器、智能检测设备等专业解决方案供应商,班通科技凭借多年行业深耕与技术积…

作者头像 李华
网站建设 2026/6/15 13:50:53

BYOVD漏洞研究:CVE-2026-0828内核驱动漏洞分析与安全研究

0xKern3lCrush-M4te-CVE-2026-0828 Windows BYOVD研究与终端侦察笔记 严格用于教育/安全研究目的。 目标:通过公开披露文档理解和研究"自带易受攻击驱动"技术——不包含任何可工作的漏洞利用代码。 ⚠️ 关键道德与法律警告(操作前必读&#x…

作者头像 李华
网站建设 2026/6/15 13:55:24

用Linux脚本轮转业务系统的日志

背景 上一篇文章用Linux自带的logrotate来轮转日志,确实方便,但它会改变当前日志文件的指针,因为它的机制是重新创建当前日志文件。在有些情况下,会出现奇怪的问题。比如一直打开当前日志文件不关闭的业务系统会受影响。 解决 …

作者头像 李华
网站建设 2026/6/15 14:58:26

全网最全中望CAD二次开发教程-ZRX

中望CAD是国产CAD的领军之作,在信创背景下,大有可为。掌握中望CAD二次开发技术,不仅能深度契合特定业务场景、快速定制高效插件,更是提升行业竞争力的关键。下面推荐的专栏,专注于ZWCAD二开,从零基础出发&a…

作者头像 李华