面向长上下文自动驾驶的规划对齐Token压缩-编程实验室

26年6月来自Nvidia和香港大学的论文“Planning-aligned Token Compression for Long-Context Autonomous Driving”。

一体视觉-动作模型（Monolithic vision-action models）代表自动驾驶领域的一种新兴范式。然而，当该架构在处理复杂交互场景并编码长时序上下文信息时，生成的Token序列往往会迅速超出实时计算的预算限制。尽管线性Transformer和外部记忆机制等方法试图降低上下文处理的开销，但Token压缩技术因无需修改骨干网络（backbone），与该架构的兼容性最佳。现有的压缩方法多采用时间衰减等基于规则的启发式策略，且与规划过程相脱节，这可能导致丢失对决策至关重要的信息。为此，提出COMPACT-VA，这是一个基于条件VQ-VAE构建的、与规划过程相协同的工作记忆框架，旨在将长时序上下文压缩为有限规模的表征。该压缩过程同时依赖于历史轨迹信息和学习的规划意图；在训练阶段，后验编码器从未来轨迹中提取该意图，而先验编码器则学习根据压缩后的观测信息对其进行预测。压缩后的记忆与预测的潜表征（latent）拼接后输入策略网络进行端到端优化，从而在保留关键决策信息的前提下进行规划。在高动态、高信息量的场景中进行评估——这些场景中历史上下文对于行为决策（如停车、让行或通行）的正确性至关重要——并据此设计相应的行为评估指标。在Token预算相当的情况下，本文方法将成功率提升6%以上（达到68.3%），且各项指标均有稳健提升。消融实验验证“规划协同”机制的有效性。闭环评估结果显示，与未压缩处理相比，COMPACT-VA在保持常规驾驶性能的同时，实现3.3倍的推理加速和2.7倍的内存占用降低。

1 统一视觉-动作模型主干网络

方法基于 Alpamayo [1] 的统一视觉-动作（VA）策略变体构建，该变体包含三个核心组件：一个将多相机观测数据处理为视觉 Token 的视觉编码器，一个在无文本指令情况下进行时序推理的 Transformer 主干网络，以及一个生成车辆未来运动轨迹的轨迹解码器。

来自当前及过去 T 个时间步的多相机图像通过预训练的视觉编码器（例如 DINOv2 [32]）被编码为视觉 Token。每张图像生成 N_img 个 Token。若每个时间步使用 N_cam 个相机进行多视角观测，则原始视觉 Token 的数量会随之增加。

这些视觉 Token 与时间位置嵌入及相机特定嵌入一起，与编码后的历史轨迹信息进行拼接，随后输入到因果 Transformer 主干网络中。对于历史轨迹，采用经 MLP 压缩的正弦位置嵌入，生成一个代表自车历史轨迹的连续 Token。对于未来轨迹，采用基于 FSQ 的 Tokenizer [33]，通过有限标量量化将未来航点压缩为离散 Token，从而在保持重构质量的同时实现自回归生成（参考 Alpamayo [1]）。

尽管这种统一架构省去显式的中间模块，但序列长度会随上下文长度线性增长。在需要长时序上下文的复杂驾驶场景中，Token 数量会大幅增加，轻易超出典型视觉-语言模型（VLM）的上下文窗口限制。若无有效的压缩手段，Transformer 注意机制带来的 O(N²) 二次计算开销将导致部署变得难以实现。

2 学习分层级时间上下文缓冲

为了在保留时间信息的同时管理 Token 序列的增长，通过基于查询（query-based）的学习聚合方式压缩原始观测数据，并将其组织成层级化存储库。COMPACT-VA 的整体架构如图 2 所示。

层级缓冲结构。跨越 T 个时间步的观测历史被组织为 K 个压缩层 {L_1, L_2, …, L_K}，每一层采用不同的压缩比，以平衡 Token 效率与信息保留效果。每一层 L_k 包含 n_k 个连续帧。压缩过程以级联的层级方式进行：首先将帧编码为每相机 N_img 个 Token，随后逐层进行压缩；层 L_k 针对每相机每帧输出 ⌊N_img / r_k⌋ 个 Token，其中 rk 为累积压缩比（即从第 1 层到第 k 层的压缩因子相对于原始 N_img 的乘积）。
采用一种基于“时间衰减”启发式策略的多层层级结构：最近的一层保留完整的 Token 分辨率（不进行压缩），中间层采用适度压缩，而较早的层则采用高强度压缩。各层的时间跨度设置遵循以下比例：近期历史占据较短的时间窗口但保持较高的 Token 密度，而较早的历史则覆盖较长的时间跨度并采用稀疏表示。这种设计在实现大幅压缩的同时，能够针对行为线索最关键的区域保留细粒度信息。

基于 Q-former 的学习压缩。每一级的压缩均由 Q-former 模块实现，该模块接收缓冲的观测 Token {o^buffer_t} 作为输入，同时输入相关的时刻嵌入 e_time 和相机嵌入 e_cam。对于层级 L_k 帧，将【N_img / r_k】个可学习的查询 Token（query tokens）与原始观测 Token 及其他嵌入进行拼接，随后以 MMDiT [34] 方式通过自注意机制处理这一组合序列。查询 Token 通过双向注意机制选择性地聚合与任务相关的视觉特征，从而生成每一帧的压缩表示。

压缩完成后，来自各层级的 Token 按时间顺序（从早到晚）重新排列。为了适配这种分层压缩结构，采用源自 Alpamayo 的 RoPE 位置嵌入 [35]：对于压缩比为 r_k 的层级 L_k 中的 Token，其 RoPE 频率步长会按 r_k 进行缩放。这种做法确保位置编码在不同压缩层级间保持一致，并与未压缩序列保持对齐。

该压缩过程采用端到端学习方式，而非依赖人工设计的规则。尽管分层缓冲结构为时间衰减提供了归纳偏置，但查询 Token 能够自适应地决定保留哪些视觉特征。最终生成的压缩 Token 构成基于轨迹条件的记忆（trajectory-conditioned memory）。

3 面向规划的变分Token压缩

尽管分层压缩减少Token数量，但它并未将压缩过程与规划目标显式耦合，即未能根据下游规划需求来决定保留哪些信息。为此，引入一种结合向量量化（VQ）的条件变分自编码器（cVAE）框架，通过将压缩质量与轨迹预测相耦合来解决这一问题。其核心思想是从未来轨迹中提炼驾驶意图，将其转化为紧凑的离散潜变量 z，随后训练压缩后的观测信息，使其足以预测该潜变量，从而确保保留对决策至关重要的历史线索（如图2）。

变分编码器架构。在训练和推理阶段采用两个功能各异的编码器。这两个编码器均采用轻量化架构，以确保相对于策略主干网络而言，其计算效率保持在较高水平。

后验编码器 q_φ (z | o, τ_future)（仅在训练时使用）：从未来轨迹中提取驾驶意图。
先验编码器 p_θ (z | o_compressed)（训练与推理）：该编码器仅利用来自 Q-former的压缩观测值 o_compressed 来预测驾驶意图的潜变量，而不使用未来信息。
向量量化：z_q 和 z_p 均通过 argmin_k ||z − c_k|| 映射至一个共享的离散码本，从而得到量化嵌入 z_skill = c_i*。

策略输入构成。通过 VQ 获得的离散技能嵌入 z_skill（在训练和推理阶段均使用先验编码器的 z_p）经由一个学习得到的线性层进行重投影，并作为特殊token进行添加。该token与轨迹条件记忆 o_compressed、历史轨迹tokens以及重新应用的时间步和相机嵌入进行拼接。随后，该组合序列被输入到统一的 Transformer 主干网络（基于 Alpamayo [1]），以自回归方式预测未来的轨迹token。

端到端训练。整个系统由Q-former压缩器、先验/后验编码器、VQ码本和策略骨干组成，采用综合目标进行端到端优化。

在训练过程中，策略基于从先验编码器（prior encoder）采样的潜变量 z_p（而非后验变量 z_q）进行条件化，从而确保训练与推理阶段的一致性。这种设计在压缩与规划之间建立一种闭环耦合关系：如果 Q-former 丢弃对决策至关重要的历史信息，先验编码器便无法准确预测由未来轨迹推断出的潜变量，进而导致 KL 散度升高及轨迹预测性能下降。通过这种联合优化，模型能够隐式地识别出哪些历史信息对下游决策至关重要，而无需依赖人工设计的保留规则。

推理。在测试阶段，仅先验路径处于激活状态。模型利用 Q-former 压缩观测信息，根据轨迹条件化记忆预测潜变量 z_p，通过 VQ（向量量化）将其量化以检索离散技能嵌入（discrete skill embedding），随后将其重投影并作为特殊 Token 拼接，最后自回归地生成轨迹 Token。这种机制既保持与统一 VA 架构的完全兼容性，又能在严格的 Token 预算限制下实现有效长时程规划。

重点关注那些长时历史上下文对于确定正确驾驶行为起关键作用的场景。既往研究 [6] 表明，关键驾驶决策依赖于 5 到 10 秒时间窗口内捕捉到的行为线索；相比之下，标准驾驶策略通常仅处理 1 到 2 秒的数据，而涉及整条路线长时空间记忆的导航任务则与之截然不同。识别一些具有高信息价值的动态场景，在这些场景中，长时上下文决定了行为的正确性；此外，针对这些决策至关重要的结果，设计超越单纯轨迹位移的评估指标。

A. 作为记忆测试场景的停车标志控制路口

确定三类长时历史上下文发挥显著作用的场景（如图 3）：(1) 需要根据到达顺序协商通行权的四向停车路口；(2) 需要评估动态横向交通流的停车/让行标志路口；以及 (3) 需要做出间隙接受（gap acceptance）决策的无保护转弯场景。这些场景具有一个共同的基本特征：正确的行为取决于离散决策的正确性（即车辆是否在必要时停车、在适当时通行），而非轨迹的平滑度。

• 四向停车路口。多辆车辆到达十字路口，所有通道上均设有通行标志。通行权遵循到达顺序 [6]，要求跟踪哪些车辆在几秒钟内提前到达。自车需要确定其在该时间队列中的位置。该模型必须维护 5-10 秒前的到达时间信息，以便正确推断让行顺序并在获得通行权时迅速前进。
• 动态遮挡停止/让行。当自车接近十字路口时，先前可见的参与者可能会被遮挡或退出视野。该模型必须保持几秒钟前观察的状态，而不是仅仅依赖当前可见的对象，以避免错误地将被遮挡的交叉点评估为清晰。

• 无保护转弯。自车在没有受保护信号的情况下穿越迎面而来的交通。几秒钟前观察的迎面驶来车辆可能会开始减速以让行，或保持速度，要求本车停下来等待安全间隙。如果不能在几秒钟内跟踪迎面而来的车辆的轨迹，该模型就有可能变成迎面而来的车辆或不必要地等待。
这三个场景类别涵盖驾驶中的核心决策挑战。根据[6]，这里测试的基本技能，即接受间隙、通行权协商和停车行为方面的错误，约占十字路口事故的 40%。

B 行为评估指标

诸如 minADE [38] 之类的传统指标与这些对决策至关重要的场景并不匹配。“溜车式停车”（rolling stop）可能获得较低的 minADE，但却属于违规行为 [39]；反之，若停车动作正确但稍有延误，尽管安全性更高，却会导致较高的 minADE。提出一套行为指标，用于直接评估车辆在上述三类场景中的决策正确性：

• 停车成功率（Stop SR）：衡量车辆在需要时是否实现完全停止（速度 < v_stop）。对于持续停车场景，检查预测轨迹在“真值”（ground-truth）停车时段内（并在一定时间容差范围内）是否保持静止状态。
• 起步成功率（Go SR）：评估车辆在停车后是否继续行驶，而非无限期停滞。这包括评估车辆在获得通行权后是否能及时起步，以确保模型不会造成交通流中断。
• 溜车通过率（Roll-Through Rate）：量化车辆未能完全停止、而是执行“溜车式停车”（即最低速度 ≥ v_stop）的比例。这种溜车通过行为既违法又危险 [39], [6]。
• 停车位置误差（Stop Position Error）：衡量实际停车位置与指定停车线之间的空间偏差。
• 停车时长误差（Stop Duration Error）：量化预测停车时长与真值停车时长（或人类驾驶行为中的停车时长）之间的偏差。

评估设置

数据集与场景。基于 Alpamayo 物理 AI 数据集 [40] 采用两种互补的协议进行评估：针对精选的“依赖记忆”场景进行开环评估，以及针对常规驾驶进行闭环评估以验证常规性能。

为了严格评估记忆性能，从数据集中筛选出一个包含上述场景的子集，其中真值轨迹（ground-truth trajectories）表现出以下特征：(1) 在 6.4 秒内减速至 1 m/s 以下；(2) 保持静止状态（速度 < 0.5 m/s）至少 0.5 秒；以及 (3) 随后加速，表明成功完成间隙判断（gap acceptance）并驶离。该子集约占整个数据集的 16%，其中行为的正确性明确无误，且基于记忆的推理至关重要。对于开环评估，从该子集中提取一个包含 20,000 个片段的验证集（每个片段 20 秒，10Hz 采样下为 200 帧，关键决策点位于特定帧），并使用剩余数据进行训练。在此子集上训练的模型专注于依赖记忆的决策制定。

实现细节。在所有实验中，用 T = 20 个时间步（4Hz 采样下为 5 秒）、N_cam = 2 个摄像头以及 N_img = 160 个图像 token。在不进行压缩的情况下，这将产生 N_raw = 6,400 个视觉 token。分层压缩采用 K=3 层结构：第 1 层（n1 = 4 帧，r1 = 1）、第 2 层（n2 = 5 帧，r2 = 16）和第 3 层（n3 = 11 帧，r3 = 80），最终压缩至 N_compressed = 1,424 个 token（压缩率为 4.5 倍）。驾驶潜空间维度为 dz = 32。对于后验编码器，轨迹被量化为 128 个离散 token（64 个路径点，每个路径点对应 2 个 token），随后压缩至 N_agg = 5 个 token（N_local = 4 个局部 token + 1 个全局 token）。VQ 码本大小为 K = 20。在行为指标方面，停止速度阈值为 v_stop = 0.5 m/s。

基线设置。在不同的历史信息和 token 预算条件下将 COMPACT-VA 与基线方法进行比较：标准 Alpamayo 仅保留最近 1 秒的观测数据（8 帧，1280 个 token），代表基础设置 [1]；“稀疏观测+长历史”通过稀疏采样将上下文扩展至 5 秒（8 帧，1280 个 token）；“密集观测+长历史”在 5 秒内保持完整的 4Hz 采样且不进行压缩（40 帧，6400 个 token）；“无规划对齐的压缩”采用分层压缩但不包含规划对齐模块（40 帧，1424 个 token）；以及 COMPACT-VA（离散/连续），它引入规划对齐的变分压缩，使用基于离散 FSQ 或连续潜空间的编码（1424 个 token）。所有方法均进行训练。在同一数据集上进行端到端处理。

面向长上下文自动驾驶的规划对齐Token压缩

1 统一视觉-动作模型主干网络

2 学习分层级时间上下文缓冲

3 面向规划的变分Token压缩

A. 作为记忆测试场景的停车标志控制路口

B 行为评估指标

评估设置

深入解析PCA85276 LCD驱动芯片：多路复用原理、I2C配置与工程实践

QMT 量化交易全攻略：一文搞懂所有数据下载方式（代码 + 客户端双教程）

Agent 能力评测基准怎么建：覆盖面、代表性与可持续维护

CFR Java反编译工具深度解析：从字节码到可读源码的架构解密与实战指南

NTAG 424 DNA芯片LRP协议与SDM机制深度解析

高效自动化微博图片下载器：无需登录一键批量保存高清原图