news 2026/5/1 11:13:02

项目分享|VGGT:秒级完成场景3D重建的视觉几何Transformer

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
项目分享|VGGT:秒级完成场景3D重建的视觉几何Transformer

引言

3D场景重建是计算机视觉领域的核心难题,传统方法往往依赖多阶段流程、海量计算资源,且仅能输出局部3D属性。而CVPR 2025最佳论文成果——VGGT(Visual Geometry Grounded Transformer)彻底改变了这一现状:这款由牛津大学VGG组与Meta AI联合研发的模型,能从单张/多张/数百张场景视图中,秒级直接推断相机内外参、深度图、3D点云等全维度3D属性,还支持商用部署与生态集成,成为3D重建领域的突破性成果。

项目核心介绍

VGGT是一款前馈神经网络,核心目标是从任意数量的场景视图中快速完成全维度3D属性推断,涵盖相机外参/内参、点映射、深度图、3D点跟踪等关键信息,且全流程仅需数秒。该项目斩获CVPR 2025最佳论文奖,团队后续持续迭代:7月更新商用许可(VGGT-1B-Commercial checkpoint支持商用,排除军事场景)、开放训练代码(支持自定义数据集微调);6月新增COLMAP格式导出功能(可直接对接NeRF/高斯溅射库);5月上线Co3D数据集相机姿态估计评估代码,全方位降低使用门槛。

创新点与核心优势

核心创新

  1. 架构创新:摒弃传统多阶段重建流程,通过Transformer架构直接端到端推断全量3D场景属性,无需中间步骤;
  2. 零样本能力:未针对单视图重建训练,却能实现比肩SOTA的单视图3D重建效果;
  3. 商用适配:发布商用友好版checkpoint,性能与原版持平(Co3D数据集AUC@30达90.37),审批流程类LLaMA自动审核。

核心优势

  1. 极致高效:H100 GPU上1帧仅需0.04秒,100帧也仅需3.12秒,显存占用可控(1帧仅1.88GB);
  2. 生态兼容:导出的COLMAP格式文件可直接对接gsplat等高斯溅射/NeRF库;
  3. 易用性强:支持自定义掩码排除反光/天空等干扰区域,无需精准分割,简单框选即可。

技术实现与部署实操

环境部署

首先克隆仓库并安装依赖:

gitclone git@github.com:facebookresearch/vggt.gitcdvggt pipinstall-r requirements.txt

核心推理代码

仅需几行代码即可完成3D属性推断:

importtorchfromvggt.models.vggtimportVGGTfromvggt.utils.load_fnimportload_and_preprocess_images device="cuda"iftorch.cuda.is_available()else"cpu"dtype=torch.bfloat16iftorch.cuda.get_device_capability()[0]>=8elsetorch.float16# 初始化模型并加载预训练权重model=VGGT.from_pretrained("facebook/VGGT-1B").to(device)# 加载并预处理图像(替换为自定义路径)image_names=["path/to/imageA.png","path/to/imageB.png"]images=load_and_preprocess_images(image_names).to(device)# 推理获取3D属性withtorch.no_grad():withtorch.cuda.amp.autocast(dtype=dtype):predictions=model(images)# 包含相机参数、深度图、点云等

实用功能部署

  1. 导出COLMAP格式(支持光束平差法):
# 基础导出python demo_colmap.py --scene_dir=/YOUR/SCENE_DIR/# 带光束平差法(更快版本)python demo_colmap.py --scene_dir=/YOUR/SCENE_DIR/ --use_ba --max_query_pts=2048--query_frame_num=5
  1. 交互式3D可视化:
pipinstall-r requirements_demo.txt# Gradio网页可视化python demo_gradio.py# Viser 3D点云可视化python demo_viser.py --image_folder path/to/your/images/folder

该项目及相关内容已 AladdinEdu课题广场同步发布,欢迎前往了解更多技术实现与资源

项目地址:AladdinEdu课题广场

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 10:05:01

魔方教程资源合集

玩转魔方(小合集) 文件大小: 18.5GB内容特色: 18.5G高清魔方教程合集,速拧复原全掌握适用人群: 零基础至竞速玩家、亲子互动与益智爱好者核心价值: 系统教学手法拆解,30天从入门到20秒下载链接: https://pan.quark.cn/s/84035cc1…

作者头像 李华
网站建设 2026/5/1 7:11:36

Qwen2.5-7B大模型推理指南|vLLM加速与生产调优

Qwen2.5-7B大模型推理指南|vLLM加速与生产调优 在当前大模型工程化落地的关键阶段,如何高效部署一个兼具长上下文理解、多语言支持和结构化输出能力的中等规模语言模型,成为企业AI平台建设的核心命题。阿里通义千问推出的 Qwen2.5-7B-Instruc…

作者头像 李华
网站建设 2026/5/1 7:35:21

Rembg抠图技术揭秘:如何实现边缘平滑处理

Rembg抠图技术揭秘:如何实现边缘平滑处理 1. 引言:智能万能抠图 - Rembg 在图像处理领域,自动去背景(Image Matting)一直是视觉内容创作的核心需求。无论是电商商品图精修、证件照换底色,还是社交媒体内容…

作者头像 李华
网站建设 2026/5/1 5:21:55

AI音视频智能识别标识系统:让视听内容可感可溯

生成式AI催生了大量合成音视频,从虚假新闻片段到仿冒通话诈骗,亟需技术构建内容安全与高效应用的双重屏障。AI音视频智能识别标识系统,以多模态AI技术为核心,不仅能为视听内容打“数字身份证”实现溯源鉴伪,更在语音转…

作者头像 李华
网站建设 2026/5/1 5:26:42

玩转Qwen2.5-7B-Instruct|多语言长文本生成与Chainlit交互实现

玩转Qwen2.5-7B-Instruct|多语言长文本生成与Chainlit交互实现 一、引言:为何选择 Qwen2.5-7B-Instruct Chainlit 组合? 随着大模型在自然语言处理领域的持续演进,高效部署与友好交互已成为落地应用的两大核心诉求。通义千问团…

作者头像 李华
网站建设 2026/5/1 5:27:04

应对 Nginx Ingress 退役,是时候理清这些易混淆的概念了

本文希望提供一种更简单的方式,来理解这些容易混淆的技术概念:Nginx、Ingress、Ingress Controller、Ingress API、Nginx Ingress、Higress、Gateway API。 Nginx 和 Kubernetes 我们先按和 Kubernetes 是否有关,分为两类: Ngi…

作者头像 李华