sVLM 六大研究热点及已开源案例-编程实验室

sVLM 六大未来方向对应“目前已有重大突破的开源案例”整理。目前六个方向都有开源案例，但成熟度不一样。其中能效优化、异构算子融合、知识增强蒸馏已经比较接近工程落地；动态模态加权、多模态持续学习已有较强研究原型；因果对齐仍主要停留在研究框架和任务型验证，还没有成为 sVLM 主流训练范式。

1. 动态模态加权：从“固定融合”走向“动态路由 / MoE 专家选择”

代表开源案例：

开源案例	关键突破	对 sVLM 的启发
MoE-LLaVA	使用稀疏 MoE 路由学习多模态交互，3B sparse activated 参数即可达到或接近 LLaVA-1.5-7B，并在对象幻觉 benchmark 上超过 LLaVA-1.5-13B；代码和数据已开放。	可把“图像 token / 文本 token / OCR token / 检测框 token”动态分配到不同专家，适合小模型做按任务激活。([GitHub][1])
Uni-MoE / Uni-MoE 2.0	用动态容量 MoE、模态专家和 progressive training 支持图像、文本、语音等十余种跨模态交互。	虽然规模偏大，但其“模态级专家 + 动态容量路由”很适合迁移成 sVLM 的轻量 gating。([GitHub][2])
DynMM	样本级决定采用哪些模态，属于早期动态多模态融合框架。	更适合做 sVLM 前端策略：低置信度才启用视觉大分支，高置信度走轻量分类/embedding。([GitHub][3])

研究热点判断：
动态模态加权在 sVLM 中不会只是“视觉权重 0.7、文本权重 0.3”这种静态比例，而会发展成：

输入质量 / 任务类型 / 置信度 / 设备算力 ↓ 动态选择视觉分辨率、视觉 token 数、OCR 分支、检测分支、VLM 分支 ↓ 只激活必要专家或必要模态

对你的自动售货柜项目尤其有价值：清晰正视图 → YOLO+embedding；遮挡/包装变化 → OCR/VLM；低置信度 → 多模态专家投票。

2. 因果对齐：从“相关性对齐”走向“反事实 / 因果图 / 去伪相关”

代表开源案例：

开源案例	关键突破	对 sVLM 的启发
CausalVLR	面向视觉-语言因果推理的开源 toolbox，集成因果发现、因果推理方法，覆盖医学报告生成、视频问答等任务。	可作为 sVLM 因果对齐研究底座，用于分析“背景、品牌、包装颜色、文字”等伪相关因素。([GitHub][4])
CaPL：Causality-guided Prompt Learning	通过 visual granulation 构造 factual / counterfactual granules，用因果提示提升细粒度识别。	对小模型很实用：不直接改大骨干，而是在 prompt / adapter 层做因果纠偏。([GitHub][5])
COGT	用 Causal Graphical Model 建模视觉 token 与文本 token 的依赖关系，减少语言生成中的伪相关。	更偏 caption / reasoning，但可迁移到 sVLM 的结构化输出、报告生成、VQA。([GitHub][6])

成熟度判断：
因果对齐还没有像蒸馏、量化那样形成通用工程 pipeline。目前更适合作为：

数据增强：反事实样本 训练约束：去背景、去颜色偏置 评估集：包装变化 / 背景变化 / 遮挡变化 推理策略：给出因果解释与置信度

在零售 SKU 场景中，因果对齐的核心价值是防止模型把货架位置、背景颜色、价格牌、相邻商品当成 SKU 本体特征。

3. 知识增强蒸馏：从“大模型压小模型”走向“跨模态关系 / 领域知识 / 合成数据蒸馏”

代表开源案例：

开源案例	关键突破	对 sVLM 的启发
TinyCLIP	通过 affinity mimicking 和 weight inheritance 做跨模态蒸馏，在速度与精度之间取得更好平衡。	适合把大 CLIP / SigLIP 的图文对齐能力蒸馏到小视觉编码器。([GitHub][7])
MobileCLIP / MobileCLIP2	使用 captioner 和强 CLIP ensemble 做 multi-modal reinforced training，将额外知识存入 reinforced dataset，提升移动端 image-text 模型精度。	这是“知识增强蒸馏”的强代表：不是只蒸 logits，而是蒸 teacher caption、teacher embedding、teacher ranking。([Apple Machine Learning Research][8])
LLaVA-Med	利用 PubMed Central 图文数据和 GPT-4 生成的 instruction data，通过 curriculum learning 适配医学领域；代码、数据、模型以研究用途开放。	说明“领域知识 + 合成指令 + VLM 微调”可以让通用 VLM 迁移到专用行业。([GitHub][9])
MiniGPT-Med	开源医学视觉语言模型代码，支持医学影像任务，如报告生成、VQA、疾病识别。	适合参考其领域数据组织和医学多任务微调方式。([GitHub][10])

研究热点判断：
sVLM 的知识增强蒸馏会从三条线发展：

1）Teacher VLM → Student sVLM 蒸馏 embedding / attention / answer / reasoning trace 2）领域知识 → Prompt / Adapter / 数据 如医学本体、商品类目树、SKU 属性表、包装版本映射 3）合成数据 → 小模型指令微调 用 GPT-4V/Qwen-VL 等生成图像问答、属性描述、反事实样本

4. 异构算子融合：CNN / ViT / MLP / Token Compressor 协同

代表开源案例：

开源案例	关键突破	对 sVLM 的启发
MobileVLM / MobileVLM V2	使用 mobile-oriented 架构和 LDPv2 lightweight downsample projector，1.7B 模型可达到或接近更大 3B VLM 的 benchmark 表现。	LDPv2 思路非常适合边缘 sVLM：先压视觉 token，再送 LLM，降低注意力开销。([GitHub][11])
FastVLM	引入 FastViTHD 混合视觉编码器，减少高分辨率图像 token 和编码时间；官方代码开源，并支持 Apple 设备推理与量化导出。	代表“混合视觉编码器 + 少 token + 高分辨率”的新趋势。([Hugging Face][12])
EfficientViT / EfficientViT-SAM	面向高效视觉基础模型，已被用于 Grounding DINO 1.5 Edge、EfficientViT-SAM 等边缘视觉任务。	可作为 sVLM 视觉塔替代方案，尤其适合检测、分割、开放词汇识别前端。([GitHub][13])

研究热点判断：
sVLM 的异构算子融合核心不是“堆更多 Transformer”，而是：

CNN / RepConv：提取局部纹理、边缘、包装细节 ViT / SigLIP：做全局语义与图文对齐 Token Compressor：减少视觉 token MLP / QFormer / Resampler：桥接视觉与语言空间 LLM：只负责语义推理与结构化回答

对边缘端部署，最重要的是视觉 token 数量。很多 VLM 慢，并不是 LLM 本身最慢，而是高分辨率图像被切成太多视觉 token 后，注意力计算爆炸。

5. 能效优化：从“能跑”走向“手机 / Jetson / 浏览器 / 本地实时可用”

代表开源案例：

开源案例	关键突破	对 sVLM 的启发
SmolVLM	2B 小型 VLM，官方称其小、快、内存友好、完全开源，并开放模型、数据集、训练 recipe 和工具。	是 sVLM 开源路线的典型工程样板。([Hugging Face][14])
MiniCPM-V 4.6	1.3B 参数，面向手机/端侧部署；通过 mixed 4x/16x visual token compression 和视觉编码计算优化，降低视觉编码 FLOPs，并开放 iOS/Android/HarmonyOS 边缘部署指引。	很适合参考其“视觉 token 压缩 + 端侧部署”策略。([GitHub][15])
MobileVLM	面向移动设备的小型 VLM，MobileVLM V2 1.7B 在标准 VLM benchmark 上达到或接近更大 3B 模型。	适合作为 1B–3B 级 sVLM 工程 baseline。([GitHub][11])
FastVLM-0.5B	最小版本相比 LLaVA-OneVision-0.5B 有 85× 更快 TTFT 和 3.4× 更小视觉编码器。	对“实时拍照问答 / 边缘质检 / 低延迟 VQA”很有参考价值。([Hugging Face][12])
llama.cpp / MLC LLM 生态	已成为本地 LLM/VLM 量化与跨平台部署的重要工具链，MiniCPM-V 文档也提供 llama.cpp 本地运行路径。	适合把 sVLM 变成 GGUF / int4 / int8 / Metal / Vulkan / CPU fallback 的工程形态。([MiniCPM][16])

研究热点判断：
未来 sVLM 能效优化会集中在：

视觉 token 压缩 > LLM 量化 > KV cache 优化 > 分辨率动态选择 > NPU/DSP/HTP 编译

对 Jetson Orin / RK3588 / Qualcomm QNN 这类端侧设备，建议优先关注：

MiniCPM-V / SmolVLM / MobileVLM / FastVLM + int4/int8 量化 + llama.cpp / MLC / ONNXRuntime / TensorRT / QNN + 视觉 token 压缩

6. 多模态持续学习：从“离线一次训练”走向“增量 SKU / 新包装 / 新场景”

代表开源案例：

开源案例	关键突破	对 sVLM 的启发
PROOF	面向 VLM class-incremental learning，通过冻结图像/文本编码器并扩展 task-specific projection，缓解灾难性遗忘。	适合新增类别、新 SKU、新包装版本时只加 projection / adapter，而不全量训练。([GitHub][17])
MoE-Adapters4CL	通过动态扩展 MoE adapters 做 VLM 持续学习，并使用 DDAS 自动区分 in-distribution / out-of-distribution 输入；同时降低 60% 参数训练负担。	很适合“每批新增商品只新增 adapter/expert”的零售场景。([GitHub][18])
CLAP4CLIP	面向 CLIP 的概率式持续学习框架，支持多种 prompt 形式和 class-incremental learning。	可用于提升增量学习中的不确定性估计，避免新类覆盖旧类。([GitHub][19])
Awesome Continual-learning of VLMs	系统汇总 VLM 持续学习问题，指出跨模态对齐和泛化能力容易受灾难性遗忘影响。	可作为持续学习论文/代码索引。([GitHub][20])

研究热点判断：
sVLM 持续学习真正有价值的不是“每次重训模型”，而是：

新类别 / 新包装 / 新场景 ↓ 注册 embedding / prompt / adapter / expert ↓ 旧类别冻结，新类别增量学习 ↓ 通过 replay / distillation / OOD router 防止遗忘

这和自动售货柜非常匹配：
新增 10 个 SKU 不应该重新训练整套 VLM，而应通过 embedding 注册、LoRA/adapter 增量、少量 hard negative 样本完成更新。

六大方向成熟度排序

排名	方向	当前成熟度	推荐关注度
1	能效优化	最高，已有 SmolVLM、MiniCPM-V、MobileVLM、FastVLM 等开源模型	★★★★★
2	异构算子融合	很高，视觉 token 压缩、hybrid encoder、LDP 已经有效	★★★★★
3	知识增强蒸馏	高，TinyCLIP、MobileCLIP、LLaVA-Med 已证明路线有效	★★★★★
4	多模态持续学习	中高，PROOF、MoE-Adapters4CL、CLAP4CLIP 已有强研究原型	★★★★☆
5	动态模态加权	中高，MoE-LLaVA、Uni-MoE 证明动态路由有效，但小模型工程化仍在发展	★★★★☆
6	因果对齐	中等，CausalVLR、CaPL 等有研究突破，但工业 sVLM pipeline 尚未标准化	★★★☆☆

最值得重点跟踪的开源项目清单： ```text 1. SmolVLM 2. MiniCPM-V 3. MobileVLM / MobileVLM V2 4. FastVLM 5. TinyCLIP 6. MobileCLIP / MobileCLIP2 7. MoE-LLaVA 8. Uni-MoE 9. PROOF 10. MoE-Adapters4CL 11. CLAP4CLIP 12. CausalVLR 13. CaPL

总结：
sVLM 的突破点已经从“模型更小”转向“视觉 token 更少、模态动态激活、知识可蒸馏、类别可持续增长、因果更稳健”。

参考链接:
[1]: https://github.com/PKU-YuanGroup/MoE-LLaVA “GitHub - PKU-YuanGroup/MoE-LLaVA: 〖TMM 2025〗 Mixture-of-Experts for Large Vision-Language Models · GitHub”
[2]: https://github.com/HITsz-TMG/Uni-MoE “GitHub - HITsz-TMG/Uni-MoE: Uni-MoE: Lychee’s Large Multimodal Model Family. · GitHub”
[3]: https://github.com/zihuixue/DynMM?utm_source=chatgpt.com “zihuixue/DynMM - Dynamic Multimodal Fusion”
[4]: https://github.com/HCPLab-SYSU/CausalVLR “GitHub - HCPLab-SYSU/CausalVLR: CausalVLR: A Toolbox and Benchmark for Vision-Language Causal Reasoning (多模态因果推理开源框架) · GitHub”
[5]: https://github.com/GaoMY-521/causality-guided-prompt-learning “GitHub - GaoMY-521/causality-guided-prompt-learning: Causality-guided Prompt Learning for Vision-language Models via Visual Granulation · GitHub”
[6]: https://github.com/aimagelab/COGT?utm_source=chatgpt.com “[ICLR 2025] Causal Graphical Models for Vision-Language …”
[7]: https://github.com/wkcn/TinyCLIP “GitHub - wkcn/TinyCLIP: [ICCV2023] TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance · GitHub”
[8]: https://machinelearning.apple.com/research/mobileclip “MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training - Apple Machine Learning Research”
[9]: https://github.com/microsoft/LLaVA-Med “GitHub - microsoft/LLaVA-Med: Large Language-and-Vision Assistant for Biomedicine, built towards multimodal GPT-4 level capabilities. · GitHub”
[10]: https://github.com/Vision-CAIR/MiniGPT-Med “GitHub - Vision-CAIR/MiniGPT-Med: Open-sourced code of MiniGPT-Med · GitHub”
[11]: https://github.com/Meituan-AutoML/MobileVLM “GitHub - Meituan-AutoML/MobileVLM: Strong and Open Vision Language Assistant for Mobile Devices · GitHub”
[12]: https://huggingface.co/apple/FastVLM-0.5B “apple/FastVLM-0.5B · Hugging Face”
[13]: https://github.com/mit-han-lab/efficientvit?utm_source=chatgpt.com “mit-han-lab/efficientvit: Efficient vision foundation models …”
[14]: https://huggingface.co/blog/smolvlm “SmolVLM - small yet mighty Vision Language Model”
[15]: https://github.com/OpenBMB/MiniCPM-V “GitHub - OpenBMB/MiniCPM-V: A Pocket-Sized MLLM for Ultra-Efficient Image and Video Understanding on Your Phone · GitHub”
[16]: https://minicpm-o.readthedocs.io/en/latest/run_locally/llama.cpp.html?utm_source=chatgpt.com “llama.cpp - MiniCPM-V & o Cookbook”
[17]: https://github.com/LAMDA-CL/PROOF “GitHub - LAMDA-CL/PROOF: Learning without Forgetting for Vision-Language Models (TPAMI 2025) · GitHub”
[18]: https://github.com/JiazuoYu/MoE-Adapters4CL “GitHub - JiazuoYu/MoE-Adapters4CL: Code for paper “MoE-Adapters” CVPR2024 and “MoE-Adapters++” TPAMI2025 · GitHub”
[19]: https://github.com/srvCodes/clap4clip “GitHub - srvCodes/clap4clip: Code for our NeurIPS´24 paper · GitHub”
[20]: https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models?utm_source=chatgpt.com “YuyangSunshine/Awesome-Continual-learning-of-Vision- …”