【导语:英伟达正式推出基于突破性Transformer混合架构的物理AI开放世界基础模型Cosmos 3,将视觉推理等功能结合,还缩短了训练和评估周期。同时推出NVIDIA Cosmos联盟,推动下一代世界模型发展。】
Cosmos 3是世界上第一个完全开放的全能模型,能以领先的物理精度原生理解和生成文本、图像、视频、环境声音和动作。它将物理AI的训练和评估周期从数月缩短到数天,为开发者在构建机器人、自动驾驶汽车和视觉AI方面带来代际飞跃。
Cosmos 3采用mixture - of - transformers架构,将reasoning transformer与expert generation transformer相结合。该架构使模型能够在生成视频和动作轨迹之前理解对象交互、运动和时空关系,解决了物理AI中让机器人、自动驾驶汽车等在训练数据有限和仿真堆栈分散情况下在现实世界泛化的根本挑战。
它基于最大的多模态物理AI数据集之一进行训练,包含数十亿个涵盖文本、图像、视频、声音和动作轨迹的样本。
基准测试结果显示,在开源模型中,Cosmos 3在世界生成准确率方面,于Artificial Analysis、Physics - IQ、PAI - Bench和R - Bench测试中均排名第一;在动作策略方面,在RoboLab和RoboArena测试中排名第一;在视觉理解方面,在VANTAGE - Bench和TAR排行榜上名列前茅。
Cosmos 3产品线为开发者提供了适用于物理AI开发不同阶段的选择。Cosmos 3 Super适用于需要最高物理精度和生成质量的训练后机器人和AV模型;Cosmos 3 Nano可在极短时间内实现高质量视频和动作推理;Cosmos 3 Edge即将推出,用于在边缘进行实时推理。
编辑观点:Cosmos 3的推出为物理AI领域带来重大突破,其开放特性和卓越性能有望推动相关产业快速发展,联盟的成立也将加速下一代世界模型的进步。