news 2026/5/25 15:13:52

阶跃星辰重磅开源双SOTA模型:Step-Video与Step-Audio引领AIGC多模态技术突破

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阶跃星辰重磅开源双SOTA模型:Step-Video与Step-Audio引领AIGC多模态技术突破

阶跃星辰重磅开源双SOTA模型:Step-Video与Step-Audio引领AIGC多模态技术突破

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

在人工智能生成内容(AIGC)领域持续突破的浪潮中,阶跃星辰(StepFun)近日宣布开源其最新研发的SOTA级视频生成模型Step-Video与音频生成模型Step-Audio,引发行业广泛关注。这两款模型凭借创新性的技术架构与卓越的生成性能,不仅填补了国内开源视频生成领域的多项技术空白,更为全球开发者提供了探索多模态内容创作的全新工具链。

作为本次开源的核心模型,Step-Video-T2V(文本到视频生成)采用了当前最先进的DiT(Diffusion Transformer)架构作为基础骨架。该架构创新性地设计了48层深度Transformer网络,每层网络配置48个并行注意力头,每个注意力头的特征维度达到128维,形成了总计超过10亿参数的庞大模型体系。这种深度与广度兼具的网络结构,使得模型能够同时捕捉文本描述中的语义细节与视频序列中的时空动态特征。

为解决视频生成过程中的时间一致性难题,Step-Video-T2V引入了两项关键技术创新。首先是采用AdaLN-Single(Adaptive Layer Normalization with Single Parameter)机制处理时间步条件,通过动态调整归一化层参数,使模型能够精准学习不同时间戳之间的依赖关系。其次是在自注意力模块中创新性地融入QK-Norm技术,通过对查询(Query)和键(Key)向量进行独立归一化处理,有效缓解了训练过程中的注意力分数分布失衡问题,使模型在48层深度网络的训练中仍能保持数值稳定性。

针对视频数据的高维度特性,Step-Video-T2V特别设计了基于3D RoPE(Rotary Position Embedding)的位置编码方案。这种编码方式能够将空间位置信息与时间维度信息进行联合建模,使模型在处理从16帧到204帧不等的视频序列时,以及从256x256到544x992不同分辨率的视频数据时,均能保持一致的生成质量。3D RoPE技术的应用,使得模型突破了传统视频生成模型对固定序列长度的限制,为生成可变时长、可变分辨率的视频内容提供了技术可能。

在视频压缩与表示方面,Step-Video-T2V创新性地采用了高压缩比的Video-VAE(视频变分自编码器)架构。该VAE模型通过16倍的空间压缩(将原始图像分辨率压缩16x16倍)和8倍的时间压缩(将视频帧序列压缩8倍),实现了对视频数据的高效编码。这种极致的压缩策略使得原本需要TB级存储的视频数据能够以极低的 latent 空间维度进行表示,不仅大幅降低了模型的显存占用,更显著提升了推理速度——在NVIDIA A100显卡上,生成一段128帧视频的速度较同类模型提升了3倍以上。

考虑到多语言内容创作的需求,Step-Video-T2V在文本理解模块采用了双编码器架构。模型同时集成了基于Transformer的双语预训练文本编码器,能够同时处理英文与中文两种语言输入。其中英文编码器基于LaMDA模型的预训练权重进行微调,中文编码器则在大规模中文互联网文本语料上进行了专项训练,确保对中文成语、诗句、网络流行语等特殊表达的准确理解。双编码器输出的特征向量通过交叉注意力机制进行融合,使模型能够精准捕捉双语提示词中的细微语义差别。

为全面验证模型性能,阶跃星辰研发团队构建了包含五大维度的综合评测体系,通过与目前主流的开源视频模型(如ModelScope-Video、CogVideo、Stable Video Diffusion等)进行对比测试,Step-Video-T2V展现出压倒性优势。在指令遵循度方面,模型对复杂多条件文本提示的理解准确率达到89.7%,较第二名高出15.3个百分点;在运动平滑性指标上,通过光流场分析显示,模型生成视频的平均运动矢量误差仅为0.83像素,远低于同类模型的1.52像素;在物理合理性评估中,针对物体运动轨迹、重力加速度等物理规律的遵循度评分达到4.2分(5分制);而在美感度评价上,由50名专业设计师组成的评审团给出了4.5分的平均得分,尤其在场景构图、色彩搭配和光影效果方面获得高度评价。

性能测试数据显示,Step-Video-T2V在标准测试集上能够稳定生成长达204帧(按30fps计算约6.8秒)的连续视频片段,在544x992分辨率下仍能保持每秒24帧的生成速度。特别值得关注的是,该模型生成的视频内容在长时间序列中表现出卓越的内容一致性——测试显示,在204帧视频序列中,主体物体的特征保持率达到92.3%,场景切换的逻辑连贯性评分达到4.3分,这些指标均显著优于当前开源领域的最佳水平。

Step-Video-T2V的开源发布,不仅提供了完整的模型权重文件,更包含了从数据预处理、模型训练到推理部署的全流程代码。开发者可通过Gitcode平台获取完整项目(仓库地址:https://gitcode.com/StepFun/stepvideo-t2v),该仓库包含了针对不同硬件配置的优化版本,支持从消费级GPU(如NVIDIA RTX 4090)到数据中心级GPU(如A100)的无缝部署。阶跃星辰团队同时提供了详细的技术文档、示例代码和预训练检查点,降低了开发者的使用门槛。

随着Step-Video与Step-Audio模型的开源,AIGC领域正迎来多模态创作的全新机遇。这两款模型的技术突破不仅体现在视频生成的质量提升上,更重要的是构建了一套完整的多模态内容生成解决方案。未来,随着模型在广告创意、影视制作、游戏开发等领域的广泛应用,我们有理由相信,AI驱动的内容创作将逐步从辅助工具进化为创意伙伴,为数字内容产业带来颠覆性变革。阶跃星辰表示,将持续维护并迭代优化开源模型,计划在未来三个月内推出支持4K分辨率、60fps帧率的增强版本,同时开放模型的定制化训练接口,让更多开发者能够基于自身需求微调模型,共同推动AIGC技术的创新发展。

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/25 10:24:28

游戏库管理终极革命:20款Playnite扩展一键解决所有痛点

还在为杂乱无章的游戏库而烦恼吗?Playnite扩展集合为你带来了完整的解决方案,通过20多款精心设计的插件彻底革新游戏管理体验。无论你是拥有几十款游戏的休闲玩家,还是收藏数百款游戏的重度用户,这套开源工具都能让你的游戏库焕然…

作者头像 李华
网站建设 2026/5/21 23:07:04

17亿参数挑战行业巨头:Salesforce CoDA模型颠覆代码生成范式

2025年1月,Salesforce AI Research团队的陈浩霖、王诗雨、秦灿等研究者联合发表了题为"CoDA: Coding LM via Diffusion Adaptation"的突破性研究。这项创新成果通过arXiv:2510.03270v1预印本平台向学界公开,开源代码与模型权重则可通过GitCode…

作者头像 李华
网站建设 2026/5/23 19:49:13

13、Unix系统文件操作与系统信息查询指南

Unix系统文件操作与系统信息查询指南 1. 文件分割:split命令的使用 在日常使用中,我们可能会遇到文件过大无法通过邮件发送的情况。例如,你想用新数码相机拍摄了新电脑的照片,想通过邮件分享给亲朋好友,但因文件太大,ISP无法发送。这时,除了修改文件本身(如减小物理尺…

作者头像 李华
网站建设 2026/5/25 7:51:21

21、深入探索函数与 `getline` 函数:从自定义函数到输入处理

深入探索函数与 getline 函数:从自定义函数到输入处理 1. 自定义函数的魅力 在编程的世界里,自定义函数是提升代码复用性和模块化程度的重要手段。 1.1 自定义函数基础 自定义函数允许程序员编写自包含的代码块,这些代码块可以在不同的程序中重复使用。函数定义的基本…

作者头像 李华
网站建设 2026/5/22 3:18:42

25、Awk编程:工具、应用与实战详解

Awk编程:工具、应用与实战详解 1. Awk工具概述 Awk是一种强大的文本处理语言,有多种不同的实现版本,各有特点和优势。 1.1 Michael的mawk mawk由Michael Brennan编写,与POSIX awk向上兼容,并且有一些扩展功能。它的主要优点是速度快且健壮,虽然功能比gawk少,但性能通…

作者头像 李华
网站建设 2026/5/22 20:14:15

31、Awk脚本语言快速参考

Awk脚本语言快速参考 1. 命令行语法 调用awk有两种基本形式: - awk [-v var=value] [-F re] [--] ’pattern { action }’ var=value datafile(s) - awk [-v var=value] [-F re] -f scriptfile [--] var=value datafile(s) 一个awk命令行由命令、脚本和输入文件名组成…

作者头像 李华