news 2026/5/1 7:51:42

斯坦福大学李飞飞教授团队最新成果,针对具身差异,从零成本视频生成用于交互的3D物体流

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
斯坦福大学李飞飞教授团队最新成果,针对具身差异,从零成本视频生成用于交互的3D物体流

Dream2Flow,

简单来说,生成式视频模型能根据文字指令 + 初始图像,

“想象” 出人类完成任务的视频(像把面包放进碗),

但机器人看不懂这些人类动作,

没法把视频里的人类操作转化为自己的机械臂 / 关节运动指令,

毕竟机器人不知道怎么动机械臂才能复刻视频里的动作。

Dream2Flow解决的就是,构建视频想象和机器人执行的桥梁,让机器人不用专门训练(零样本),

就能跟着视频模型的 “想象”,

完成对各种物体(硬的、能动的、软的、颗粒状的)的操控,不用依赖特定任务的演示数据。

arxiv 2512.24766

Dream2Flow 利用现成的视频生成模型,在机器人所处的同一场景中生成任务执行过程的视频。

随后,该框架从视频的运动信息中提取 3D 物体流,支持机器人在多种任务中进行下游规划与执行。

示例任务:打开烤面包机、拉开抽屉、将面包放入碗中、将马克杯放入绿色碗中、将 T 型块推至中心、拉出椅子、回收易拉罐、清扫意大利面、打开烤箱、用围巾盖住碗、将面包放入碗中。

摘要:

生成式视频建模已成为一种极具潜力的工具,能够针对开放场景操控任务,对合理的物理交互过程进行零样本推理。然而,如何将这类由人类主导的动作转化为机器人系统所需的底层动作指令,至今仍是一项难题。研究发现,当输入初始图像与任务指令时,这类模型能够出色地合成合理的物体运动轨迹。基于此,我们提出了 Dream2Flow 框架,该框架以3D 物体流

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 7:16:47

飞书文档增强功能:粘贴图片自动提取文字并插入正文

飞书文档增强功能:粘贴图片自动提取文字并插入正文 在日常办公中,你是否曾为一张会议白板照片、一份扫描合同或一段视频字幕而不得不手动逐字录入?这种“看图打字”的操作不仅耗时,还容易出错。更麻烦的是,还要反复切换…

作者头像 李华
网站建设 2026/4/19 14:47:43

火山引擎AI大模型 vs 腾讯混元OCR:谁更适合中文OCR场景?

火山引擎AI大模型 vs 腾讯混元OCR:谁更适合中文OCR场景? 在金融柜台扫描身份证、政务大厅上传申请表、跨境电商处理多语种发票时,我们常遇到一个共性问题:为什么OCR系统总把“张三”识别成“弓长三”,或者漏掉盖章遮挡…

作者头像 李华
网站建设 2026/4/30 18:25:22

探索含瓦斯煤岩组合体在三轴加载下的奥秘

含瓦斯煤岩组合体,三轴加载。 在矿业工程领域,含瓦斯煤岩组合体在三轴加载条件下的力学特性一直是研究热点。这不仅关乎煤矿开采的安全性,还对资源的高效利用有着重要意义。今天咱就来深入探讨一番。 想象一下,煤矿井下的煤岩体…

作者头像 李华
网站建设 2026/5/1 7:33:14

从清华镜像站加速下载HunyuanOCR模型的方法技巧

从清华镜像站加速下载HunyuanOCR模型的方法技巧 在AI多模态应用日益普及的今天,越来越多开发者面临一个看似简单却令人头疼的问题:如何快速、稳定地获取像HunyuanOCR这样的前沿开源模型?尤其是在国内网络环境下,直接从Hugging Fa…

作者头像 李华