news 2026/5/1 11:24:24

ICLR 2026重磅开源!重新思考3DGS表示:参数化直接训练难收敛,统一非参数化表示效果更佳!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ICLR 2026重磅开源!重新思考3DGS表示:参数化直接训练难收敛,统一非参数化表示效果更佳!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

本文经作者授权发布 | 来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入

3D Gaussian Splatting(3DGS)自从提出以来,凭借高效率和高质量的特点,已经在显式三维重建领域产生了很大影响。不过,它仍然存在一个长期被忽视的问题:3DGS 的参数化表达并不“适合神经网络”。

如果你尝试过直接用高斯参数去训练神经网络(如前馈网络),大概率会遇到训练不稳定、难以收敛等情况。这并不是实现细节的问题,而是表示方式本身带来的困难。

在ICLR 2026的论文Learning Unified Representation of 3D Gaussian Splatting中,作者提出了一种新的Submanifold Field(SF)表示。这种表示为3DGS提供了一个稳定、唯一、规整的表示空间,使其更容易与神经网络结合和学习。

作者团队Yuelin Xin, Yuheng Liu, Xiaohui Xie, Xinke Li
作者单位UC Irvine, City University of Hong Kong
项目主页https://cilix-ai.github.io/gs-embedding-page/
项目代码https://github.com/cilix-ai/gs-embedding
arXivhttps://arxiv.org/abs/2509.22917

挑战:参数化学习为何会失效

直接使用原始的高斯参数进行学习,本身就存在结构性问题。首先,这些参数是异构的,而且并不唯一。一个最典型的例子就是“多对一”的映射问题。比如在旋转表示中,四元数q和-q虽然数值不同,但对应的是完全相同的几何状态。 从数学角度看,不同类型的高斯参数分布在不同的流形上,例如旋转位于 SO(3),尺度位于。这种不一致的参数空间,会在学习过程中带来表示冲突:神经网络的编码器 E(⋅)很难把“数值不同、但物理意义相同”的参数映射到同一个潜在表示点上。形式化地说,即使两个参数集合描述的是同一个物理高斯,也可能出现:

这正是直接对3DGS参数做学习时,训练不稳定、难以收敛的重要原因之一。

我们的解决方案:Submanifold Field Embedding

与其依赖不稳定的参数化方式,我们提出了Submanifold Field(M,F)。核心思路是:不再直接用参数来定义一个高斯,而是用它的等概率曲面来刻画——这是一种在三维空间中具有规范形式的子流形。具体来说,一个三维高斯由如下密度函数定义:

我们选择一个固定的概率阈值τ,将满足 g(x)=τ的点集视为子流形M,并在其上定义对应的颜色场F。这种几何化的表示方式,保证了高斯的物理形状与其表示之间存在严格的一一对应关系,从根本上避免了参数层面的多对一问题。

为了让这一表示真正可用于神经网络学习,我们进一步设计了SF-VAE(Submanifold Field Variational Auto-encoder)。它可以将任意输入的子流形场离散化为一个点云,并映射为一个紧凑的32维向量(或更低维向量)表示:

随后,解码器再从这个平滑的欧式潜空间中重建出对应的高斯参数 θ,从而实现稳定、连续、对学习友好的表示与生成过程。

主要发现与实验结果

1.显著提升的重建质量

在新的表示空间中进行学习后,SF-VAE 在重建质量上取得了非常明显的提升。以 ShapeSplat 数据集为例,使用前馈网络学习原始高斯参数时,重建结果的 PSNR 只有 37.5;而在采用 SF 表达之后,这一数值提升到了63.4

这个结果说明,统一且对神经网络友好的表示方式,可以极大释放 3D Gaussian 在基于学习的前馈网络重建质量上的潜力,而提升并不是来自更复杂的模型,而是来自更合理的表示本身。

2.零样本泛化能力

一个相当出人意料的结果是,我们的方法几乎不依赖具体数据域。即使只在随机生成的合成高斯数据集上训练,SF-VAE也依然能够在复杂的真实场景中表现良好(zero-shot)。

例如,在完全没有见过真实场景数据的情况下,模型依然可以直接泛化到 Mip-NeRF 360这样的真实世界数据集上,且重建效果几乎不受影响。这说明,Submanifold Field Embedding 捕捉到的是高斯本身的几何结构,而不是某一类数据分布的统计特征。

3.对噪声的鲁棒性

在许多下游任务中,模型预测得到的embedding往往不可避免地会包含噪声。为此,我们在设计 SF embedding 时,刻意强调了表示的平滑性和连续性。

实验中的行为分析表明,即使在噪声水平较高的情况下,SF-VAE 依然能够很好地保持高斯的几何结构;相比之下,直接基于参数的模型在这种条件下往往会更容易失效。我们通过如下Manifold Distance来评估高斯之间的偏差:

结果显示,SF embedding对噪声的敏感性显著更低,这也是其在复杂下游任务中表现更稳定的重要原因。

超越重建:面向下游任务的应用

SF Embedding不只是用于提升重建质量,它还能捕捉3D高斯中更深层的语义结构,这也为一系列下游应用打开了新的空间。

首先,在无监督语义聚类任务中,基于 Submanifold Field 的嵌入相比原始高斯参数,能够更好地保留局部和整体的语义信息,使得相似语义结构在嵌入空间中自然聚集。

其次,在Gaussian Neural Fields(GNF)场景下,SF Embedding 可以作为一个数值上更稳定的学习目标,用于基于前馈神经网络的重建任务。这一点在实际训练中尤为重要,因为它显著降低了由参数不连续性带来的优化困难。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等

3D视觉硬件

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜)!星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 6:12:39

基于stm32f10x芯片的人形机器人控制系统硬件设计

基于STM32F10x芯片的人形机器人控制系统硬件设计 第一章 绪论 人形机器人作为智能机器人领域的核心研究方向,具备仿人运动、环境交互等特性,广泛应用于教育、服务、工业等场景。传统人形机器人控制系统多采用专用控制芯片,存在拓展性差、运…

作者头像 李华
网站建设 2026/4/30 20:24:28

基于数据分析的智能饮食推荐APP

一、项目介绍 本文主要研究依托数据分析技术的健康饮食管理APP的开发和设计,以解决当前人们在饮食方面的健康问题,在人们需要帮助时,为用户设计一份饮食方案。详细地开展调查工作,了解人们的饮食管理目标是什么。明确人们的个性化…

作者头像 李华
网站建设 2026/5/1 5:10:46

基于resnet +vgg+pyqt5的交通信号灯检测识别系统

前言    随着城市化进程的推进以及汽车保有量的持续上升,智能交通系统的重要性日益凸显,交通信号灯检测识别系统作为其中关键一环,备受关注。传统检测手段存在一定局限性,而深度学习技术的发展为其带来了新的发展方向。本研究尝…

作者头像 李华
网站建设 2026/5/1 7:20:27

【作业2】DELETE vs TRUNCATE 区别及大表删除影响

文章目录 【作业2】DELETE vs TRUNCATE 区别及大表删除影响1. 二者的区别2. 大表删除表数据,对OS的影响?使用 DELETE 删除大表的影响:使用 TRUNCATE 删除大表的影响: 3. 大表数据删除的最佳实践方案1:分批删除 (推荐)方…

作者头像 李华
网站建设 2026/5/1 6:11:50

Visual Studio 里的 4 种命令行窗口到底有什么区别?别再选错了!

Visual Studio 里的 4 种命令行窗口到底有什么区别?别再选错了! 当你安装完 Visual Studio 的 C 开发环境(MSVC),打开开始菜单想找命令行编译代码时,你可能会被眼前这一排长得像孪生兄弟的快捷方式搞懵&am…

作者头像 李华