【论文自动阅读】SemanticGen: Video Generation in Semantic Space-编程实验室

快速了解部分

基础信息（英文）：

1.题目: SemanticGen: Video Generation in Semantic Space
2.时间: 2025.12
3.机构: Zhejiang University, Kuaishou Technology (Kling Team), CUHK, DLUT, HUST
4.3个英文关键词: Video Generation, Semantic Space, Diffusion Model

1句话通俗总结本文干了什么事情

本文提出了一种名为SemanticGen的新方法，通过先在“语义空间”规划视频的大致结构，再在“像素空间”填充细节，从而实现更高效、更连贯的长视频生成。

研究痛点：现有研究不足 / 要解决的具体问题

收敛慢且成本高：现有的视频生成模型直接在像素或VAE隐空间操作，计算量巨大，训练收敛非常慢。
长视频生成难：生成长视频时，双向注意力机制计算复杂度随长度平方级增长，容易导致画面漂移或质量下降。

核心方法：关键技术、模型或研究设计（简要）

SemanticGen采用“两阶段”生成策略：首先利用预训练的视觉模型提取视频的高阶语义特征（全局规划），然后训练扩散模型先生成这些语义特征，最后将其映射回VAE隐空间生成最终视频。

深入了解部分

相比前人创新在哪里

生成空间的转变：不同于传统方法直接在VAE隐空间生成，SemanticGen选择在高阶语义空间进行初始建模。
语义压缩技术：提出使用轻量级MLP对语义特征进行压缩和高斯分布正则化，解决了直接在高维语义空间采样困难和收敛慢的问题。
长视频扩展性：通过在高度压缩的语义空间使用全注意力机制维持全局一致性，在VAE空间使用移窗注意力（Swin Attention）降低计算复杂度。

解决方法/算法的通俗解释

想象你要画一幅复杂的画。传统方法是一笔一笔地画（像素级）。SemanticGen的做法是：

第一步（打草稿）：先画出简单的火柴人和框框（语义空间），确定人物位置和动作走向。
第二步（描边填色）：根据草稿，把火柴人变成有血有肉的人（VAE空间），填充细节、纹理和光影。
这种方法不仅画得更快（收敛快），而且不容易把人画变形（长视频一致性好）。

解决方法的具体做法

语义编码：使用Qwen-2.5-VL的视觉塔作为语义编码器，提取视频的时空特征。
特征压缩：通过一个可学习的MLP将高维语义特征压缩为低维向量，并使其符合高斯分布。
两阶段训练：
- 阶段一：微调视频扩散模型，使其能根据压缩后的语义特征生成VAE隐变量。
- 阶段二：训练语义生成器，学习从文本生成对应的压缩语义特征。
推理合成：先生成语义特征，再将其注入到视频生成模型中解码为视频。

基于前人的哪些方法

基础架构：基于DiT（Diffusion Transformers）和Rectified Flow（直化流）框架。
语义编码：利用了Qwen-2.5-VL作为预训练的语义提取器。
注意力机制：在长视频生成中引入了Swin Transformer的移窗注意力机制。

实验设置、数据、评估方式、结论

数据：内部文本视频对数据集（短片），以及由电影/电视剧剪辑的60秒长片段（长视频）。
评估：使用VBench（短）和VBench-Long（长）基准，以及衡量漂移的△FID指标。
结论：
- 在短片生成中，效果与SOTA模型（如Wan2.1, HunyuanVideo）相当。
- 在长视频生成中，显著优于基线模型（如SkyReels-V2, Self-Forcing），有效缓解了画面漂移问题。
- 语义空间压缩（MLP）能显著加速模型收敛。

提到的同类工作

TokensGen：同样采用两阶段范式，但它是对VAE隐变量进行压缩，而非语义特征。
REPA：通过将扩散模型隐藏状态与语义特征对其来加速收敛。
RCG：提出先建模自监督表示再映射到图像分布，但主要用于无条件图像生成。

和本文相关性最高的3个文献

TokensGen(Ref )：最接近的方法，同样是两阶段，但对比证明了生成语义空间比生成压缩VAE空间收敛更快。
Qwen2.5-VL(Ref )：本文所依赖的核心语义编码器，用于提取视频的时空语义特征。
Self-Forcing(Ref )：作为长视频生成的强基线模型，用于对比展示SemanticGen在解决长视频漂移方面的优势。

我的

主要是解决text to video任务的问题。主要想法就是用semantic feature来作为condition，相当于把语义抽象出来作为condition。相比之前text通过旁路cross attention的方式注入，这种更强调语义，从而如果语义一致，那么长视频一直根据语义生成的话就更一致了。

干货分享|AI Agent全链路开发

生成式AI的浪潮席卷各行各业，AI Agent作为连接技术与业务的核心载体，已然成为企业数字化转型、开发者抢占赛道的关键抓手。从智能客服、自动化办公到工业级决策辅助，AI Agent的应用场景不断拓宽，但随之而来的是开发者的普遍困境&a…

李华

WEB安全攻防入门教程（非常详细），从零基础入门到精通，看完这一篇就够了

1 信息收集阶段 1.1 域名信息开场白写给入门者，域名查询可以快速了解一家网站的运营者是谁。如果查询不到经营者，说明是钓鱼网站或非法网站，尤其是从事金融交易，需要特别注意 1.1.1 whois 查询推荐指数：★★ 1.1…

李华

AI驱动的11种学术论文写作工具，支持LaTeX格式与智能内容增强

工具对比排名工具名称核心优势支持LaTeX 适用场景 aibiye AIGC率降个位数，兼容知网规则是 AI痕迹强处理 aicheck 学术改写优化，语义保留佳是格式统一化 askpaper 降重降AI一体，20分钟快速响应是初稿优化秒篇人类特…

$作者头像$ 李华

Java后端开发学习路线，零基础入门到精通，收藏这篇就够了

此思维导图是从codeSheep那里而来文章目录 java后端开发学习路线编程基础 java语言语法基础JVM并发/多线程数据结构和算法数据结构算法计算机网络数据库/SQL操作系统设计模式研发工具应用框架后端 spring全家桶服务器软件中间件分布式/微服务微服务发现/注册网关服务…

李华

不止是 “姐妹岛”：明月岛的独家浪漫

明月岛，是位于黑龙江省齐齐哈尔市区西北嫩江中游的一座江心岛。其总面积约为7.6平方公里，因形如一弯明月倒映于江水之上而得名。作为一处四面环水的独特地理单元，明月岛以其自然生态与人文古迹的交融，构成了区别于城市喧嚣的静谧空…

李华

如何将CAD图纸进行黑白打印？

当我们在使用浩辰CAD看图王软件看图纸时，有时候会因为需要，将图纸打印出来，绘图的时候为了便于区分将图层设置为不同的颜色。那么，在浩辰CAD看图王中如何才可以将图纸设置成黑白打印呢？今天就为大家简单介绍下&#…

李华