香港科技大学与蚂蚁集团联手打造“实时电影导演“-编程实验室

这项由香港科技大学、蚂蚁集团和上海交通大学联合完成的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.12496。感兴趣的读者可以通过该编号查阅完整技术细节。

你有没有想过，拍一部电影最难的地方不是拍好某一个镜头，而是让所有镜头连贯地讲述同一个故事？导演需要在不同场景之间切换、角色要在时隔很久的镜头里保持同一张脸、新的剧情要随时插入……这些对人类导演来说已经够头疼的了，对AI来说更是一道几乎无法跨越的鸿沟。

不过，这支研究团队用一套名叫**CausalCine**的系统，向这道鸿沟迈出了相当有说服力的一步。他们做到的事情，用一句话概括就是：让AI能像一位真正的电影导演一样，边生成视频、边接受新的拍摄指令，而且已经拍好的镜头不需要重新来过。

这件事听起来不算太难，但如果你稍微了解当前AI视频生成的现状，就会知道这其实是一件相当棘手的工作。

**一、为什么"让AI拍多镜头电影"这么难？**

现有的AI视频生成系统，大体上可以分成两类。一类是"全局规划派"——它在开始生成之前，就把所有镜头的内容都规划好，然后一口气生成出来。这类系统的好处是前后镜头之间的协调性不错，因为整个过程是"双向"的，每个镜头既能看到前面的内容，也能看到后面的内容，互相参照。但代价是非常昂贵：视频越长，计算量几乎以平方速度增长，而且用户必须在开始之前就把所有剧情写好，中途根本没法改剧本。

另一类是"逐帧生成派"——它像写日记一样，一帧一帧地往后生成，每次只看已经生成的内容，不往前看。这类方式天然适合实时流式输出，用户可以随时看到视频在生长，计算成本也相对可控。但问题是，一旦视频拉长，这类系统就会"忘记"前面发生过什么，开始循环、漂移，甚至把主角的脸都记错。更严重的是，当你需要它切换场景——比如从俯瞰森林的广角切到某个角色的特写——它往往根本意识不到应该换一个新内容，反而只是把之前的画面再延伸几秒。

可以把第一类系统比作一位在录音棚里把整张专辑都录完再发行的音乐人，而第二类更像是一位在直播中即兴演奏的歌手。前者音质更完整，但听众要等很久；后者能即时互动，但容易跑调、忘词。

CausalCine想做的，是让那位即兴演奏的歌手不再跑调——在保留实时流式输出能力的同时，让AI真正理解"现在我们要换一个场景了"，并且记住几分钟前出现过的人物。

**二、把"拍片知识"教给AI，要从基础开始**

研究团队发现，此前很多系统犯了一个顺序上的错误：先让AI学会快速生成（只用四步就出图），再让它学多镜头的结构。这就好比一个学徒还没搞清楚怎么调色，就开始学如何在一分钟内画完一幅画——快是快了，但基础不牢，一切都是空中楼阁。

CausalCine的思路反过来：先把多镜头拍片的能力扎扎实实地教给AI，再压缩速度。

为此，他们先训练了一个"全步骤因果基础模型"。这个模型的训练素材，是大量真实的长视频片段，每段大约15秒、包含多个镜头切换。模型在学习时，以一种叫做"教师强制"的方法进行训练——简单说，就是在同一次训练过程中，同时给AI看视频的"干净版本"（已经生成好的内容）和"带噪声版本"（还没生成完的内容），让AI在这两个版本的对照中学习：在已知前面镜头的情况下，接下来应该生成什么。

这个训练过程里有一个非常精妙的设计。训练时，系统把一段视频的所有片段打包成一个长序列，分成两半：前半段是所有干净的视频片段，后半段是所有加了噪声的视频片段。然后设计了一套严格的"注意力规则"——干净片段可以互相参照，但只能看时间上在自己之前的内容；带噪声的片段只能看干净的部分，不能相互交叉；干净片段完全不允许看带噪声的部分。这套规则，保证了AI在训练时学到的"看历史、预测未来"的逻辑，和它真正上场生成视频时的工作方式完全一致。

与此同时，每个视频片段的文字描述（也就是"这一段镜头拍什么"的指令）是按镜头分配的：同一个镜头内的片段共享同一个文字描述，当镜头切换时，文字描述也跟着换。这套机制让AI学会了：当文字描述发生变化时，我需要在画面上也真正做出一个新的开始，而不是惯性地继续上一个场景。

这个阶段的效果是显著的。经过这样训练的基础模型，已经能够稳定地生成多镜头视频，在切换场景时不会像以前那样"卡"在原来的画面里，也不会把人物弄混。

**三、记住过去，但不能什么都记——智能记忆路由是怎么工作的**

解决了多镜头结构的问题之后，第二个挑战是：随着视频越来越长，AI需要记住的东西越来越多，但计算机的"工作记忆"是有限的。如果全都记着，会撑爆；如果只记最近的，就会忘掉很久之前出现过的重要人物。

以前的做法通常是"保留最近几秒的内容，再加上视频最开头的几帧"——这个思路就像是：你在开会时，只记得刚才说的话和会议最开头的开场白，中间发生的重要事情全忘了。这在单场景的视频里勉强够用，但一旦涉及多个场景、角色跨场景出现，这种方法就彻底失效了：你需要记住的那个人，也许出现在第二个镜头，但系统只记得开头和最近的画面，第二个镜头早就被遗忘了。

CausalCine引入了一套叫做"内容感知记忆路由"（Content-Aware Memory Routing，简称CAMR）的机制，思路更聪明一些。

具体来说，系统为历史视频中的每一帧提取一个"内容摘要"——通过对该帧的视觉特征做一次平均，得到一个代表这一帧"大意"的向量。同时，对当前正在生成的这段视频片段，也提取一个类似的"当前需求摘要"。然后，系统把当前需求和历史每一帧的摘要做一次匹配打分，找出历史里和当前内容最相关的若干帧，把它们调出来参与注意力计算。

这套机制的工作方式，更接近一位真正有经验的导演在脑海里检索过往镜头的方式：不是盲目回想最近发生的事，而是根据当前场景的需要，精准地回忆起"我们之前拍过类似的画面"。在实验设置中，系统会保留最近3个片段的完整记忆（类似于"短期工作记忆"），再额外从历史中检索5帧最相关的内容（类似于"长期语义记忆"）。

这里还有一个很聪明的细节：检索到的历史帧，在被使用时会被重新编号位置。正常情况下，一帧视频在整个序列里的位置编号可能已经是第1000帧了，如果直接把这个编号告诉AI，AI会完全不知道该怎么理解——因为训练时从来没见过这么大的数字。CausalCine的解决方案是：不管这帧视频实际是第几帧，在使用它的时候，都按照"记忆帧占0到4号位，最近窗口占5到13号位，当前片段占14到16号位"这样的固定格式重新排列。这样，无论视频拍到了多长，AI看到的位置编号始终在自己熟悉的范围内，不会产生"位置恐慌"。

这个设计被研究团队称为"块相对旋转位置编码"，名字很学术，但本质上就是给AI一套固定格式的"记忆文件夹"，每次查阅历史都按同一套索引方式来，不管历史有多深。

**四、从"会拍"到"实时拍"——四步完成的加速技术**

拥有了扎实的多镜头理解能力和聪明的记忆机制之后，最后一步是让系统真正跑起来——而且要足够快，能够实时流式输出。

标准的扩散模型通常需要几十步甚至上百步的迭代才能生成一帧高质量图像，这个速度对于实时视频来说太慢了。CausalCine采用了一种叫做"分布匹配蒸馏"（Distribution Matching Distillation，DMD）的技术，把那个需要50步才能完成工作的基础模型，压缩成只需4步的"学生模型"。

这个压缩过程可以理解成：先由基础模型（老师）慢慢走完50步，生成一段高质量视频；再让学生模型在只走4步的情况下，尽量贴近老师的最终结果。训练的目标，是让学生模型的"输出分布"和老师模型的"输出分布"尽可能接近，而不是简单地逐帧模仿。

此外，研究团队还在这个压缩过程中加入了一个"鉴别器"——一个轻量级的判断网络，专门负责检测视频里是否出现了长镜头漂移、人物位置乱跑、画面构图突变等问题。如果学生模型生成的视频被这个鉴别器认为"不真实"，训练就会对其施加惩罚。这个机制有效地稳定了长视频的视觉质量，让画面里的主体不会在一堆镜头之后悄悄跑到画面角落或者变换姿势。

整个蒸馏过程还有一个初始化步骤：在正式用分布匹配训练之前，先让学生模型做一个"预热"——在给定正确历史的条件下，学习模仿老师沿着标准轨迹走4步的结果。这相当于先给学生模型一套基本功，确保它在接下来的高强度训练中不会因为起点太差而走偏。

**五、这套系统究竟有多好用？**

研究团队构建了一个专门的评测基准，用谷歌的Gemini 2.5 Pro生成了100段测试用的多镜头剧本，每段剧本包含一个整体故事描述和五个分镜头描述，涵盖角色跨镜头重现、场景切换、正反拍互动、视角变化以及长时间间隔等各种场景。

评测结果在多个维度上都相当有说服力。与其他自回归（逐段生成）视频系统相比，CausalCine在文字指令跟随、镜头切换准确率等关键指标上明显领先。具体来说，它的镜头切换准确率达到0.9732，而对比的其他系统中，大多数在0.5上下徘徊，最好的竞争对手ShotStream也只到0.9647。这意味着，当用户在指令里说"第二个镜头拍室内特写"，CausalCine确实会在对应时间位置出现切换，而其他系统往往会忽略这个切换或者位置偏差很大。

与"全局规划派"的双向生成模型相比，CausalCine在视觉质量和跨镜头一致性上也表现出相当的竞争力——在部分指标上甚至超过了这类系统——同时保留了实时流式输出和中途修改指令的核心优势，而那些双向模型完全做不到这一点。

在消融实验（即逐一拆除某个设计模块，看效果会如何变化的测试）中，三个核心设计的价值都得到了验证。没有多镜头因果调优阶段直接压缩速度的版本，在镜头切换准确率上从0.9732骤降至0.5042，跨镜头角色一致性也大幅下滑；把内容感知记忆路由换成固定的"首帧记忆"，跨镜头一致性明显下降，角色在长时间消失后重新出现时往往已经面目全非；去掉对抗正则化（那个"鉴别器"），生成的视频就容易出现长镜头后画面构图漂移的问题。

在硬件部署层面，CausalCine运行在8张英伟达H200显卡上，以14B参数量的骨干模型，实现了16帧每秒的实时生成速度。

**六、它还不完美的地方**

研究团队对于自身局限性的描述相当坦诚。两个主要的问题值得单独说说。

第一是硬件门槛。14B参数的骨干模型加上8张H200，这套配置对普通消费者或小型团队来说完全不现实。研究团队认为，这更多是工程层面的限制，而非这套方法本身的根本性缺陷——随着更小的视频骨干模型出现、模型量化技术进步以及更高效的注意力计算核问世，这个门槛有望逐步降低。

第二是"物理状态连续性"的问题。CausalCine能记住人物，能跟随叙事逻辑，但它并没有对物理世界建立显式的状态追踪。举个例子，在论文附录中，研究团队展示了一个失败案例：一段咖啡拉花的视频，整体场景和杯子都保持一致，但牛奶的流向、壶的位置、手的姿势和奶泡的形状在不同镜头之间以物理上不可能的方式变化。这说明，内容感知记忆能帮助AI"认出"之前的画面，但无法替代真正的物理状态建模和因果推理。

**归根结底，这项研究证明了什么？**

说到底，CausalCine最核心的贡献，是把一个看似矛盾的需求在一定程度上统一起来了：既要实时流式生成（就像直播），又要维持多个镜头的叙事一致性（就像精心剪辑的电影）；既要能随时接受新指令（就像现场导演），又要记住很久之前发生的内容（就像有经验的剧组成员）。

这件事之所以难，不只是因为任何一项单独的技术挑战，更在于这几项要求之间存在内在的张力。CausalCine的解法，是把"学会多镜头"和"学会加速"这两件事严格分开，先做好前者，再做后者；同时在记忆管理上从"记最近的和最开始的"转变为"记最相关的"，让有限的注意力资源用在刀刃上。

对于普通用户而言，这意味着未来的AI视频生成工具，可能真的会像一个随叫随到的虚拟导演：你说出第一幕的场景，它开始生成，画面实时流出；你看到第二幕想要加个角色特写，直接追加一句描述，它顺着刚才的内容继续，不需要重头再来。这种体验，目前还只存在于研究实验室的演示中，但通往那个方向的技术路径，已经因为这项工作而变得更清晰了一些。

有兴趣深入研究技术细节的读者，可以通过arXiv编号2605.12496查阅完整论文。

---

Q&A

Q1：CausalCine生成视频需要什么硬件？普通人能用吗？

A：目前CausalCine需要8张英伟达H200显卡才能达到16帧每秒的实时效果，这对普通消费者来说完全不现实。不过研究团队认为这是工程层面的限制，随着模型量化、更小骨干模型和更高效计算技术的发展，未来有望降低硬件门槛。目前它主要是一套实验室级别的研究成果。

Q2：CausalCine的内容感知记忆路由和普通的滑动窗口记忆有什么区别？

A：普通滑动窗口只保留最近几帧加上视频最开头的帧，不管哪些内容真正有用。CausalCine的内容感知记忆路由则会给历史每一帧提取一个内容摘要，再和当前生成内容做相关性打分，自动选出历史里最"有用"的帧调出来参考。这样，即使某个人物出现在很久之前的第二个镜头，只要当前场景需要，系统也能精准地把它调出来。

Q3：CausalCine无法处理哪类视频内容？

A：CausalCine在需要精确追踪物体物理状态的场景下表现较差。比如一段展示咖啡拉花全过程的视频，每个单独的镜头看起来都合理，但牛奶流向、壶的位置、手势等物理细节在镜头之间会出现不连续的变化。这是因为系统没有对物理世界建立显式的状态追踪，只依赖视觉相似性来维持一致性。

香港科技大学与蚂蚁集团联手打造“实时电影导演“

WarcraftHelper完整指南：三步解决魔兽争霸3在现代系统的兼容性问题

若依ruoyi重构的现代化数据大屏系统：RuoYi-Plus (Vue3 + SpringBoot3)

UNISafe与LatentSafe安全过滤技术对比分析

PrismLauncher-Cracked终极指南：如何彻底解决Minecraft离线启动难题

从原理到实现：Radix-4 Booth乘法器的Verilog设计与优化

如何快速为Honey Select 2安装完整中文补丁：免费游戏增强指南