news 2026/6/15 12:15:41

集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

# 集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

![ ](http://s1.llamafactory.online/lmlab/docs/v1.0/blog/synchronize/AutoLabeling-1.jpg)

![ ](http://s1.llamafactory.online/lmlab/docs/v1.0/blog/synchronize/AutoLabeling-2.jpg)

论文标题:*FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos*

作者团队:麻省理工学院(MIT)、英伟达(NVIDIA)、密歇根大学、加州大学伯克利分校、斯坦福大学

发布时间:2025年12月11日

[👉一键直达论文](https://arxiv.org/pdf/2512.10927)

[👉Lab4AI大模型实验室论文阅读](https://www.lab4ai.cn/paper/detail?utm_source=csdn_AutoLabeling&id=96eb1de43262427fb11bde8743915e13&type=paper)

## ✨研究背景

运动理解是物理推理的基础,但现有视觉-语言模型在真实世界视频的运动分析上仍表现不足:缺乏大规模、细粒度的运动标注数据是关键限制。手动标注成本极高,且难以覆盖复杂运动场景,导致模型难以学习“物体如何运动、空间关系如何变化”的深层逻辑。

## ✨研究方法

FoundationMotion是全自动数据标注pipeline,通过“检测-跟踪-生成”三步提取视频运动信息并生成结构化数据,视频预处理裁剪片段、过滤摄像机剧烈运动视频,物体检测与跟踪含开放词汇检测、人类中心检测及时序跟踪,分别识别通用物体、聚焦人机交互、维持跨帧一致性,GPT-4o-mini将跟踪数据转为含7维度的自然语言,同时生成5类运动理解问答对,模拟运动逻辑推理需求。

## ✨研究结果

FoundationMotion Dataset含50万组“视频-描述-QA”对(46.7K视频/QA),标注密度1.671问题/秒;微调相关模型后运动理解性能显著提升,前者MotionBench提升至46.7%、AV-Car提升7.1%,后者提升至41.3%并超越闭源模型;边界框JSON提升QA质量,不同QA类型互补最优。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 14:35:32

RAG首字延迟优化:从Embedding到系统架构的完整解决方案

文章详细分析了RAG系统首字延迟(TTFT)的优化策略,指出瓶颈主要在Embedding和向量检索阶段。提出三层优化方法:Embedding层通过批处理、异步并发和缓存减少等待;向量检索层通过HNSW索引、分区过滤和批量查询缩小范围;系统层采用全链…

作者头像 李华
网站建设 2026/6/14 22:56:16

大厂大模型面试真题详解:8个offer经验分享+AI学习资源包(建议收藏)

这篇文章是一位大模型领域求职者的面试经验分享,详细记录了在淘天、字节、商汤等公司的面试过程和技术问题,包括OCR、多模态大模型等核心知识点。作者获得了8个offer,分享了选择考量因素,并提供了面试准备建议和AI大模型学习资源&…

作者头像 李华
网站建设 2026/6/13 20:47:32

第1章:大模型基础认知

AI大模型实战营 本章:大模型基础认知 下章:暂无 沉淀分析成长⭐,我们一起进步❗️ 人工智能演进与大模型兴起 什么是AI? AI是人工智能的缩写,它是一种模拟人类智能的技术;使机器能够像人一样学习&…

作者头像 李华
网站建设 2026/6/15 5:40:35

做软件测试,掌握哪些技术才能算作“测试大佬”?

一、过硬的基础能力 其实所有的测试大佬都是从底层基础开始的,随着时间,经验的积累慢慢变成大佬。要想稳扎稳打在测试行业深耕,成为测试大牛,首当其冲的肯定就是拥有过硬的基础,所有的基础都是根基,后期所…

作者头像 李华