news 2026/5/1 9:31:58

【论文自动阅读】Stable Language Guidance for Vision-Language-Action Models

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Stable Language Guidance for Vision-Language-Action Models

这份论文介绍了一种名为**残差语义引导(RSS)**的新框架,旨在解决视觉-语言-动作(VLA)模型在机器人控制中“听不懂人话”或过度依赖视觉本能的问题。它通过数学方法剥离视觉干扰,强制模型关注语言的真实意图。

🚀 快速了解部分

基础信息(英文)

  1. 题目: Stable Language Guidance for Vision-Language-Action Models
  2. 时间年月: August (8月), 2025 (基于参考文献推断)
  3. 机构名: Sun Yat-sen University (中山大学), Guangdong Key Lab of Big Data Analysis & Processing, X-Era AI Lab
  4. 3个英文关键词: Vision-Language-Action (VLA), Residual Semantic Steering (RSS), Instruction Robustness

1句话通俗总结本文干了什么事情
本文提出了一种叫RSS的方法,让机器人即使面对乱序、啰嗦或残缺的指令,也能通过“减去视觉本能+增强语言意图”准确完成任务。

研究痛点:现有研究不足 / 要解决的具体问题
当前的VLA模型存在严重的**“模态崩溃”“指令盲目性”**。由于视觉信号太强,模型往往忽略语言指令,仅根据场景默认执行动作(如总是抓最近的物体),且对语言的微小变化(如换种说法)极其脆弱。

核心方法:关键技术、模型或研究设计(简要)
提出了**残差语义引导(RSS)**框架,包含两个核心组件:

  1. 蒙特卡洛句法积分(MCSI):训练时用LLM生成多种句式,让模型学习语义本质。
  2. 残差可供性引导(RAS):推理时减去“无指令下的视觉本能动作”,留下纯粹的“语言引导动作”。

🧐 深入了解部分

相比前人创新在哪里

  • 视角不同:不同于传统的分类器自由引导(CFG)将无条件分数作为“质量增强器”,本文将无条件分数视为“视觉本能先验”,通过减法来抑制偏差
  • 解耦设计:显式地将“物理可供性”(能做什么)与“语义执行”(想做什么)解耦,解决了视觉特征压制语言特征的梯度不平衡问题。

解决方法/算法的通俗解释
想象一个机器人:

  1. 普通人(普通模型):看到桌子上有杯子,即使你不说,他也想伸手去抓(视觉本能)。
  2. RSS机器人
    • 它先算出自己“本能想抓杯子”的冲动值。
    • 再算出你下指令后它“想做的动作”的值。
    • 它用后者减去前者,得到纯粹由你指令引起的动作增量。
    • 这样,即使你指令说得不清楚,它也不会乱动;指令说得清楚,它就能精准执行。

解决方法的具体做法

  1. 训练阶段(MCSI):利用Oracle Teacher(如Qwen2.5-VL)将一条指令扩增为多种句式(同义句、复杂句等),让模型学习这些不同句子对应同一个动作,从而忽略句式噪声。
  2. 推理阶段(RAS)
    • 计算条件分数 s(a|o,l)(看指令做事)。
    • 计算无条件分数 s(a|o,0)(不看指令凭本能做事)。
    • 计算残差:Delta s = s(a|o,l) - s(a|o,0)。
    • 最终动作 = 本能动作 + gamma * 残差(放大语言带来的微小变化)。

基于前人的哪些方法

  • 基础模型:基于 pi_0 (Black et al., 2024) 和 pi_0.5 (Intelligence et al., 2025) 以及 Gemma 模型。
  • 理论基础:借鉴了分类器自由引导(Classifier-Free Guidance, CFG)的思想,但对其进行了重新定义和修正。

实验设置、数据、评估方式

  • 基准环境:LIBERO (Liu et al., 2023) 模拟基准,包含空间、物体、目标和长程任务。
  • 评估指标:任务成功率(Success Rate, SR)。
  • 扰动测试
    • 破坏性覆盖:指令变为空白、乱序、全掩码。
    • 模糊重解释:指令加入无关干扰、常识描述代替名词、推理链提示。
    • OOD迁移:训练未见过的任务组合。

提到的同类工作

  • RT-1 / RT-2:早期的机器人Transformer模型。
  • OpenVLA:开源的VLA模型。
  • Diffusion Policy / CogACT / RDT:基于扩散模型的控制策略。
  • Libero-Plus / Libero-Pro:用于审计VLA模型鲁棒性的基准测试。

和本文相关性最高的3个文献

  1. Ho and Salimans, 2022 (Classifier-free Diffusion Guidance):RSS算法的直接理论来源(CFG),本文是对其在机器人控制领域的修正和应用。
  2. Black et al., 2024 (pi_0):本文所基于的主要基线模型之一,用于验证RSS在破坏性指令下的提升效果。
  3. Fei et al., 2025 (Libero-Plus):指出了当前VLA模型存在“指令盲目性”的审计工作,这正是本文试图解决的核心痛点。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 7:24:29

Agentic AI上下文工程隐私保护实战:提示工程架构师的5个调试技巧

Agentic AI上下文工程隐私保护实战:提示工程架构师的5个核心调试技巧 元数据框架 标题:Agentic AI上下文工程隐私保护实战:提示工程架构师的5个核心调试技巧关键词:Agentic AI、上下文工程、隐私保护、提示工程、差分隐私、隐式推…

作者头像 李华
网站建设 2026/5/1 8:55:14

稳定性性能系列之十二——Android渲染性能深度优化:SurfaceFlinger与GPU

引言 你有没有遇到过这样的场景:应用在自己的手机上丝般顺滑,但换到某些设备上就卡得像PPT?或者复杂列表滑动时掉帧严重,但CPU和内存占用看起来都正常? 这通常不是代码逻辑的问题,而是渲染性能的瓶颈。在Android系统中,从应用UI绘制到屏幕显示,中间经历了一个复杂的渲染管…

作者头像 李华
网站建设 2026/5/1 8:16:19

静态综合实验~

省略IP配置,在R4成功实现到R5\R2\R3 的畅通在R1上实现到R2\R3的访问成功实现R1到达R5的环回5.5.5.0 24网段的访问在关闭千兆线路后仍可通过备份线路实现沟通在R3上的下一跳与缺省,其他同理

作者头像 李华
网站建设 2026/5/1 8:18:02

【毕业设计】基于python-CNN卷积神经网络的宠物行为训练识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/1 6:57:20

【课程设计/毕业设计】基于python-CNN卷积神经网络的宠物行为训练识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华