news 2026/5/1 4:48:24

【论文自动阅读】Active Intelligence in Video Avatars via Closed-loop World Modeling

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Active Intelligence in Video Avatars via Closed-loop World Modeling

快速了解部分

基础信息(英文):

  1. 题目: Active Intelligence in Video Avatars via Closed-loop World Modeling
  2. 时间: 2025.12
  3. 机构: The Hong Kong University of Science and Technology, Meituan, University of Science and Technology of China
  4. 3个英文关键词: Active Intelligence, Video Avatars, Closed-loop World Modeling

1句话通俗总结本文干了什么事情

本文提出了ORCA框架,通过闭环的世界模型让视频虚拟人不仅能“动”,还能像人一样观察、思考、行动并反思,从而自主完成复杂的多步任务。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视频虚拟人(Video Avatar)技术虽然能保持身份一致和动作对齐,但缺乏真正的“能动性”(Agency)。它们只能被动地响应语音或姿态驱动,无法在生成环境不确定性下进行长视野的目标导向规划和环境交互。

核心方法:关键技术、模型或研究设计(简要)

提出了ORCA(Online Reasoning and Cognitive Architecture)框架,包含一个闭环的OTAR循环(观察-思考-行动-反思)和一个分层双系统架构(System 2负责战略推理,System 1负责动作落地),将虚拟人控制建模为部分可观测马尔可夫决策过程(POMDP)。

深入了解部分

相比前人创新在哪里

  1. 从被动到主动:首次将“主动智能”引入视频虚拟人领域,使其能自主追求长期目标。
  2. 闭环机制:引入“反思”(Reflect)阶段,通过验证生成结果与预期的一致性来防止信念崩溃,解决了生成模型的随机性问题。
  3. 分层控制:设计了双系统架构,分离了高层战略规划(System 2)和低层精确控制(System 1),解决了开放域动作在生成模型上的落地难题。

解决方法/算法的通俗解释

想象一个教练指挥一个视力不好且动作不稳定的球员。

  1. **教练(System 2)**先看一眼场上的情况(Observe),想好下一步要干嘛(Think)。
  2. 教练把指令告诉翻译(System 1),翻译把大白话变成球员能听懂的精确口令(Act),让球员去执行。
  3. 球员动完后,教练再看一眼结果(Reflect):如果和预想的一样,就继续;如果不一样(比如球没接到),教练就调整计划,让球员重试,直到做对为止。
    这个过程不断循环(OTAR),保证了即使球员发挥不稳定,最终也能完成整场比赛(任务)。

解决方法的具体做法

  1. 定义任务:提出了L-IVA任务,将视频生成视为POMDP问题,需要智能体在部分可观测和生成随机性下完成任务。
  2. OTAR循环
    • Observe:利用VLM从生成的视频片段中更新当前世界状态信念。
    • Think:System 2根据当前状态和目标规划子目标并预测下一状态。
    • Act:System 1将抽象子目标转化为特定I2V模型能精确执行的详细动作描述。
    • Reflect:验证生成结果是否符合预测,若不符合则触发重试或重规划。
  3. 双系统架构:System 2利用VLM进行开放式推理;System 1利用Prompt Engineering进行动作接地。

基于前人的哪些方法

  1. 内部世界模型(IWM)理论:借鉴了认知科学和控制理论中的内部世界模型概念,用于在部分可观测环境下进行状态估计和预测。
  2. 双过程理论(Dual-process theory):借鉴了心理学中System 1(快速、直觉)和System 2(慢速、推理)的概念,设计了分层的决策架构。
  3. POMDP框架:将决策问题形式化为部分可观测马尔可夫决策过程。

实验设置、数据、评估方式、结论

  • 数据:构建了L-IVA基准,包含100个任务,涵盖厨房、直播、车间、花园、办公室5个场景,涉及多人协作和多对象交互。
  • 对比:与Open-Loop Planner(开环规划)、Reactive Agent(反应式代理)、VAGEN-style CoT(类似世界模型推理)对比。
  • 评估:使用任务成功率(TSR)、物理合理性(PPS)、动作保真度(AFS)、人类偏好(BWS)等指标。
  • 结论:ORCA在任务成功率和行为连贯性上显著优于基线模型,证明了闭环世界模型在视频虚拟人中的有效性。

提到的同类工作

  1. InterActHuman:音频和文本驱动的虚拟人动画。
  2. DreamFactory / StoryAgent:用于复杂视频创作的多智能体系统,侧重于叙事连贯性。
  3. VISTA / GENMAC:通过生成-批判循环改进视频生成的框架。

和本文相关性最高的3个文献

  1. ** VAGEN**: Reinforcing world model reasoning for multi-turn vlm agents. (同为基于世界模型的VLM智能体研究,但假设环境确定性)
  2. ** Dual-process theories…**: 提供了ORCA双系统架构的理论心理学基础。
  3. ** Partially observable markov decision processes**: 提供了L-IVA任务形式化的数学框架基础。

我的

  1. 作者思路是先提出一个任务L-IVA(内容是让虚拟人自主完成视频里的复杂任务),然后把多个模型拼接起来成一个架构,VLM负责理解,然后给出prompt,让视频生成模型生成。没有训练。Lego-Style工作。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 22:07:12

【Java毕设全套源码+文档】基于springboot的大学生运动会管理系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/1 4:47:04

Pytest学习和使用-Pytest如何进行分布式测试?(pytest-xdist)

1 什么是分布式测试? 在进行本文之前,先了解些基础知识,什么是分布式测试? 分布式测试:是指通过局域网和Internet,把分布于不同地点、独立完成特定功能的测试计算机连接起来,以达到测试资源共享…

作者头像 李华
网站建设 2026/5/1 4:45:42

Vlm-TensorRT重新部署

CUDA的更新 之前的tensorrt部署也要更新 可以看TensorRT环境搭建_tensorrt 环境配置-CSDN博客 之后就是补充一点zlibwapi是通用的,用之前的版本就可以位置在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.6\lib\x64没有要在官网下可以查一下

作者头像 李华