news 2026/6/4 19:40:35

CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)

摘要:通用型机器人策略如今已能执行多种操作技能,但评估并提升其处理陌生物体和指令的能力仍面临重大挑战。严格的性能评估需要进行大量真实场景测试,而系统性优化则需依赖带有专家标注的修正数据——这两个过程均耗时漫长、成本高昂且难以规模化实施。世界模型为此提供了具有前景且可扩展的解决方案,它能够使策略在想象空间内运行。然而,关键难点在于构建一个能有效处理与通用型机器人策略进行多步骤交互的可控世界模型。这要求该模型需支持多视角预测、精细动作控制以及一致性的长时程交互能力,而这正是现有研究尚未实现的目标。本文通过引入一种可控的多视角世界模型,在评估和提升通用型机器人策略的指令执行能力方面取得重要进展。我们的模型采用姿态条件记忆检索机制确保长时程一致性,并通过帧级动作调控实现精准的动作控制。基于droid数据集(包含95,000条轨迹和564个场景)训练后,该模型能在新型场景及不同摄像头位置下持续生成时空一致的运动轨迹,持续时间超过20秒。我们证明,我们的方法无需实际部署机器人即可准确评估策略性能。此外,通过在模型中合成成功的运动轨迹并将其用于监督微调,该方法可使策略成功率提升44.7%。

Ctrl-World专为采用通用机器人策略的闭环策略部署场景而设计。该系统能够生成包含手腕视角在内的多视图联合预测结果,通过帧级条件化实现精细的动作控制,并借助姿态相关记忆检索机制维持连贯的长时程动态行为。这些核心功能可实现:(1)在模拟环境中进行精准的策略评估,并与真实部署场景保持一致性;(2)通过合成轨迹实现针对性的策略优化。
Ctrl-World基于预训练的视频扩散模型构建而成,并被优化为一个可控制且时间一致性强的世界模型,其核心特征包括:(1)多视角输入与联合预测机制,实现统一的信息理解;(2)记忆检索机制:通过帧级交叉注意力将稀疏的历史帧信息及运动姿态信息融入每个帧中,使预测结果与相似的历史状态保持关联;(3)帧级动作条件化机制,使高频动作与视觉动态更好地同步。
验证集上交互式长轨迹生成的定量结果。我们通过生成10秒长的轨迹来评估世界模型的质量。给定随机采样的初始帧,模型在每次交互中接收一个包含15个动作步骤(覆盖1秒时间)的序列,并进行10轮自回归生成;结果取256个片段的平均值
对Ctrl-World系统中的关键组件进行功能消除操作。移除内存机制、帧级动作条件反射或多视图联合预测均会导致性能下降
现实场景与世界模型部署之间的定量相关性。世界模型能够可靠地捕捉指令执行行为,但往往低估实际执行成功率

结论:我们推出了Ctrl-World——一款专为机器人操作设计的可控世界模型,该模型完全支持在模型内部进行闭环策略评估与优化。在Ctrl-World中测试的策略展现出与现实世界高度一致的指令执行行为:经过生成数据训练后,预训练机器人策略对新指令的成功率从38.7%提升至83.4%。尽管成果令人鼓舞,但仍存在重要挑战:我们的模型在涉及精确交互或长时程推理的任务中易出现失败,且性能对初始观测数据敏感;随着视频数据骨架模型的物理精度和连贯性不断提升(Ball 等,2025; Agarwal 等,2025),这些局限性有望逐步缓解。此外,本实验主要聚焦于提升指令执行能力,我们认为当前模型精度尚不足以显著改善其他方面表现(如对已见过指令的低级成功率)。通过迭代策略部署与微调来改进模型,是极具前景的研究方向。展望未来,我们相信生成式世界模型将彻底改变机器人技能习得方式,不仅实现可扩展的策略评估,还能使机器人既能从真实环境经验中学习,也能高效安全地从生成数据中获取知识。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/4 19:30:29

英托克直流调速器ID271/35A/380V型号的跨电压应用观察

英托克ID271系列直流调速器通常以220V电压等级的产品为市场所熟知,例如450A和720A这类大功率型号。相较之下,该系列中35A/380V这一规格,往往被简单地归类为“小功率版本”而未被充分讨论。然而,在一次涉及多电压母线整合的项目中&…

作者头像 李华
网站建设 2026/6/4 19:23:11

5分钟打造你的Windows桌面监控中心:TrafficMonitor插件终极指南

5分钟打造你的Windows桌面监控中心:TrafficMonitor插件终极指南 【免费下载链接】TrafficMonitorPlugins 用于TrafficMonitor的插件 项目地址: https://gitcode.com/gh_mirrors/tr/TrafficMonitorPlugins 你是否厌倦了在Windows桌面上打开多个监控软件&#…

作者头像 李华