论文阅读笔记：VSTAT: Benchmarking Visual State Tracking in Multimodal Video Understanding-编程实验室

1. Motivation

当前 Multimodal Large Language Models 在视频理解任务上取得了很大进展，例如动作识别、视频问答、事件理解等。但是，很多现有 benchmark 其实并不真正要求模型持续理解整个视频。

很多问题可以通过：

看几个关键帧；
找到某个显著事件；
观察最后一帧；
依赖常识或答案先验；

来得到答案。

然而，人类理解视频时，并不是只看离散帧，而是会持续追踪视频中的状态变化。例如：

看篮球比赛时，我们会持续记分；
看 shell game 时，我们会一直记住球在哪个杯子下面；
看键盘输入时，我们会把每次按键组成完整字符串；
看魔方转动时，我们会追踪某个小块最后去了哪里。

这种能力被论文称为Visual State Tracking，即视觉状态追踪。

VSTAT 的目标就是评估 MLLM 是否真的能在连续视频流中追踪实体、事件和状态，而不是只做静态图像理解或短片段理解。

2. Related Work

论文主要讨论了三类相关工作。

2.1 Video MLLM

现有多模态大模型已经可以处理视频输入，并在很多视频理解任务上表现不错，例如视频问答、动作识别、长视频理解等。

但这些任务不一定需要模型持续追踪状态。模型可能只需要抓住几个关键画面就能回答。

2.2 Video Understanding Benchmarks

已有 benchmark 覆盖了很多方向，例如：

general video understanding；
temporal reasoning；
event recognition；
long video understanding；
spatial reasoning。

但是，真正系统评估 visual state tracking 的 benchmark 仍然较少。

已有一些工作关注类似能力，比如 shell game 或 cube counting，但通常任务种类比较单一，主要是合成环境，缺少真实世界复杂场景。

2.3 World Models

VSTAT 和 world model 也有一定联系。World model 通常需要预测未来状态，而 VSTAT 关注的是从视频中追踪已经发生的状态变化。

区别在于：

world model 通常假设 action 或 state 表示比较明确；
VSTAT 中的 action 是隐含在视频事件里的，模型需要自己从视觉流中识别事件并更新状态。

3. Benchmark 构建

VSTAT 是一个视频问答 benchmark，输入是视频和问题，输出是答案。

数据规模：

834 video clips；
1,500 questions；
视频来源包括 Blender 合成视频、作者自录视频和 YouTube 真实视频。

VSTAT 的核心设计原则是：

问题不能通过单帧、少量关键帧或最终状态直接回答，必须跟踪整个视频过程。

例如：

“书一共翻了多少页？”
“最后球在哪个杯子下面？”
“键盘输入的单词是什么？”
“哪些按钮没有被按？”
“哪个球从释放到落下用时最长？”
“某个魔方块最后到了哪里？”

这些任务都要求模型持续观察事件，并维护内部状态。

4. Taxonomy

论文设计了两个 taxonomy，用来描述任务难度。

4.1 State Complexity

State complexity 描述模型需要维护什么样的状态。

它包含两个维度。

Element Type

Count
- 需要累加计数。
- 例如翻了几页、进了几球、按了几次按钮。
Location
- 需要追踪位置。
- 例如球在哪个杯子下面，魔方块最终在哪个位置。
Attribute
- 需要追踪属性。
- 例如键盘输入字符、摩斯电码、图案类别等。

Structure

Atomic
- 只需要维护一个单一状态。
- 例如总页数、最终位置。
Sequence
- 需要维护有序序列。
- 例如键盘输入的字符顺序。
Set
- 需要维护无序集合。
- 例如哪些按钮被按过，哪些球员碰过球。
Dict
- 需要维护实体到数值或属性的映射。
- 例如每个球员投中几次，每个杯子里有什么。

4.2 Perceptual Complexity

Perceptual complexity 描述视频感知为什么难。

主要包括：

Occlusion
- 目标被遮挡，例如 shell game。
Camera Motion
- 镜头移动导致空间参考系变化，例如篮球、carousel。
Homogeneity
- 多个物体长得很像，例如魔方、Lego。
Symbolic Decoding
- 需要把连续视觉模式转成符号，例如键盘输入、摩斯电码。
Multi-entity Attribution
- 多个实体同时行动，需要判断事件属于谁，例如排球、篮球。
Event Ambiguity
- 类似动作导致不同状态结果，例如拧螺丝、按键是否真的按下。

这个 taxonomy 的价值在于，它不仅告诉我们模型答错了，还能分析模型在什么类型的状态和感知挑战下更容易失败。

5. Evaluation Setup

论文评估了多种 MLLM，包括：

Gemini-3.1 Pro；
Gemini-3.0 Flash；
Qwen3VL；
InternVL；
LLaVA-OV；
Molmo2；
Cambrian-S；
MiMo-VL 等。

同时也评估了一些 agentic framework，包括：

video agent；
Claude Code；
Codex。

评估指标包括：

MCQ 的 accuracy；
numerical question 的 mean relative accuracy；
overall average score。

论文还设置了两个 chance-level baseline：

Random Chance
- 随机猜。
Frequency Chance
- 总是猜最常见答案。
- 这个 baseline 用来判断模型是否真的理解视频，而不是利用答案分布偏置。

6. Main Results

虽然 VSTAT 提出了 state complexity 和 perceptual complexity 两套 taxonomy，但主实验结果主要按照 state element 和 state structure 展开。Perceptual complexity 更多用于描述数据集多样性和解释模型失败原因，并没有像 state complexity 一样提供完整的模型性能 breakdown。

一个比较可惜的点是，论文没有系统展示不同 perceptual challenges 下的模型性能，例如 occlusion、camera motion、homogeneity、symbolic decoding 等场景下模型分别下降多少。考虑到论文强调 visual perception 是主要瓶颈，这类分桶结果会更直接地揭示哪些视觉挑战最影响当前 MLLM 的 visual state tracking 能力。

实验结果显示：

当前 MLLM 远低于人类
- Human performance 约 90.5%；
- 最强模型 Gemini-3.1 Pro 也只有约 44%；
- 很多开源模型甚至低于 frequency baseline。
现有模型只比答案先验略好
- 说明它们并没有真正掌握 visual state tracking。
增加 thinking 并不一定有效
- 论文发现更高 thinking level 有时还会降低表现。
- 原因可能是模型在高感知复杂度任务中更容易基于错误观察进行过度推理，导致 hallucination。
模型失败主要不是因为推理能力弱，而是视觉感知能力弱
- 当作者把视频中的事件手动转写成文本后，模型几乎可以完美解题。
- 但给视频输入时，模型表现接近随机。
- 这说明模型会在文字里追踪状态，但无法可靠地从视频中识别出需要追踪的事件。

7. Failure Analysis

论文总结了三类主要失败模式。

7.1 Event Recognition

模型没有正确识别视频中发生了什么事件。

例如 shell game 中，明明是 center 和 right cup 交换，模型却说成 left 和 right 交换。

这是最主要的错误来源。

7.2 Entity Association

模型无法稳定关联同一个实体。

例如排球比赛里，同一个球员多次触球，但模型每次都认为是不同球员。

这种错误在多个实体外观相似、镜头移动、遮挡严重时尤其常见。

7.3 State Update

模型识别到了事件，也知道当前状态，但没有正确更新状态。

例如模型知道目标杯子在 center，也识别到 center 和 right 交换，但最后仍然认为目标还在 center。

这类错误更接近 reasoning / state transition 错误，但论文发现它不是主要错误来源。

8. Agentic Framework 结果

论文还测试了 video agent 和 coding agent 是否能解决 VSTAT。

结果显示：

AVP 没有明显提升；
Claude Code 和 Codex 也不能可靠解决；
coding agent 往往花费大量时间和 token，但仍然会因为视频感知错误而答错。

这说明：

只靠 agentic search、写代码、抽帧分析，并不能自动解决 visual state tracking 问题。

根本瓶颈仍然在视频感知能力，而不是工具调用能力。

9. Conclusion

VSTAT 提出了一个专门评估视觉状态追踪能力的视频 benchmark。它强调模型必须持续观察视频、识别事件、关联实体，并不断更新内部状态。

论文的核心结论是：

当前 MLLM 在普通视频 benchmark 上表现不错，但在 visual state tracking 上仍然很弱；
模型失败主要来自视觉感知，而不是文本推理；
thinking 和 agentic framework 不能自然解决这个问题；
未来需要更强的视频感知和连续状态建模能力。

一句话总结：

VSTAT 证明了当前 MLLM 还不擅长从连续视频流中追踪动态状态。它们会推理，但看不准、跟不住、更新不好。

论文阅读笔记：VSTAT: Benchmarking Visual State Tracking in Multimodal Video Understanding