做多模态应用的同学一定踩过这个坑——同样发一张图,Token 消耗忽高忽低,账单完全不可控。最近在库拉(leadhi.cn)这个 AI 模型聚合平台上实测了 Gemini 3.5 的多模态调用,发现它的视觉 Token 压缩是一套四层联动的系统工程。这篇文章从架构到工程逐层拆解,附带可落地的调参建议。
为什么视觉 Token 这么贵
Transformer 的自注意力复杂度是 O(N²),Token 数翻倍,计算量是四倍。一张 4K 图像可以分解为超过 32,000 个视觉 Token,一段 90 分钟视频甚至能产生 5,400 万个。
更扎心的是,超过 50% 的视觉 Token 在推理过程中受到的关注极少。花了钱算出来的大部分 Token,模型根本没认真看。
第一层:架构级——原生多模态省掉 75%
很多所谓"多模态"模型是在文本模型基础上拼接视觉编码器,本质上是"文本模型 + 视觉插件"。不同模态之间缺乏深度交互。
Gemini 从预训练阶段就把文本、图像、音频、视频统一转成 Token 序列,所有模态共享同一套 Transformer。传统模型处理一张图片需要 1,024 个 Token,信息损失约 20%;Gemini 3 系列压缩到 256 个 Token,损失控制在 5% 左右。
Mini-Gemini 的研究也验证了这条路线——双视觉编码器同时拥有低分辨率全局语义和高分辨率局部细节,通过补丁级特征挖掘实现高分辨率理解。
第二层:配置级——两个参数精细调节
Gemini 3.5 提供了两个关键旋钮:
media_resolution:控制视觉输入处理精度。但注意,仅 Gemini 3 Pro Image 和 3.1 Flash Image HD 原生支持,基础版会静默忽略这个参数。
thinking_level:控制内部推理深度。low 级别可减少约 45% 的 Token 生成量。
| 参数 | 等级 | 核心作用 |
|---|---|---|
| media_resolution | low → ultra_high | 控制图像 Token 上限 |
| thinking_level | minimal → high | 控制推理 Token 消耗 |
避坑指南:ultra_high 必须配合 thinking_level="deep",否则模型拒绝生成。不要在同一请求中混用新旧版 thinking 参数,会返回 400 错误。输入图片原始尺寸必须≥输出目标尺寸的 80%,否则 media_resolution 会被降级为 medium。
第三层:工程级——帧策略是降本大头
Gemini 3.5 以 1FPS 采样训练,每帧用 64 个 Token 表示(而非之前的 256 个),这让它可以处理长达 6 小时的视频。
但工程侧还能再砍:
| 处理方式 | Token 数(1小时视频) | 成本 |
|---|---|---|
| 全量帧提取 | ~108,000 | $0.05 |
| 固定间隔采样 | ~36,000 | $0.017 |
| 关键帧+场景变化检测 | ~6,500 | $0.003 |
核心逻辑:提取 I 帧后,用像素差异检测场景切换,过滤掉相似度超过 90% 的冗余帧。配合自动缩放(强制最长边不超过 1024px),是目前最有效的"无感降本"方式。
第四层:算法级——学术前沿四条路线
| 路线 | 核心思路 | 代表方案 | 效果 |
|---|---|---|---|
| Token 剪枝 | 按注意力分数丢弃低价值 Token | HoloV | 88.9% Token 剪掉,保留 95.8% 精度 |
| Token 合并 | 聚类相似 Token 用一个替代 | PruMerge | 最高 18 倍压缩 |
| 结构级压缩 | Pixel Unshuffle 重排特征 | InternVL2 | Token 减少 75% |
| 分层注入 | Token 分散到不同 Transformer 层 | DeepStack | 1/5 上下文达到同等效果 |
HoloV 尤其值得关注——它放弃只追逐"高光" Token 的策略,改为分区给预算、重排再采样,在极端剪枝率下仍保留全局上下文。
趋势判断
四层压缩的叠加效果远大于单层优化。架构层压 75%,配置层再砍 45% 推理 Token,工程层把视频帧降 94%,算法层还能进一步瘦身。
未来多模态模型的竞争,不只看谁更聪明,还要看谁在同等精度下用更少的 Token 干完同样的活。media_resolution + thinking_level 的双参数体系,本质上是把压缩控制权交给了开发者。与其争论谁最强,不如拿自己的真实业务数据跑一遍,比看任何排行榜都靠谱。