前馈3D高斯泼溅新方法，浙大团队提出“体素对齐”，直接在三维空间融合多视角2D信息

2025-09-29 17:11:46

LunarCoder

发布在

科普

阅读：1812

标题：浙大团队提出“体素对齐”，革新前馈3D高斯泼溅方法

正文：
在三维重建技术快速发展的今天，前馈式3D Gaussian Splatting（Feed-Forward 3DGS）正成为产业化的热点。然而，现有方法多采用“像素对齐”策略，将2D像素映射到3D高斯，存在两大问题：二维特征难以在三维中精确对齐，且高斯数量受限于像素网格，无法智能分配。

浙大团队提出的VolSplat框架创新性地采用“体素对齐”策略，在三维空间中融合多视角信息，从根本上解决了上述难题。实验表明，VolSplat在RealEstate10K和ScanNet等数据集上的视觉质量和几何一致性均优于传统方法，同时展现出强大的跨数据集泛化能力。

VolSplat的核心思路是将“对齐”从二维提升到三维。通过每视图预测的深度图，将2D特征反投影并聚合到统一的三维体素网格中，再利用稀疏3D U-Net进行多尺度特征细化与高斯参数回归。这一方法带来了四大优势：
1. 跨视图一致性增强：信息在三维空间中融合，避免了2D特征匹配的不稳定性；
2. 高斯密度动态分配：复杂区域高密度、平坦区域低密度，资源分配更高效；
3. 几何一致性更强：减少浮空伪影和几何畸变，细节表现更清晰；
4. 易与外部3D信号融合：深度图、点云等可自然融入流程，无需复杂操作。

VolSplat的整体流程分为三步：
1. 2D特征提取与深度估计：使用共享编码器提取图像特征，并生成稠密深度图；
2. 像素到体素转换：将像素反投影到三维空间，离散化为体素并聚合特征；
3. 稀疏3D细化与高斯回归：通过3D U-Net优化体素特征，并在占据体素上回归高斯参数。

实验结果显示，VolSplat在边缘、细节和复杂几何处理上表现出色，尤其在未见过的数据集上仍保持高性能（如ACID数据集PSNR达32.65dB）。其成果可广泛应用于虚拟看房、机器人感知、AR/VR等领域，为三维重建研究提供了新方向。

论文链接：https://arxiv.org/abs/2509.19297
项目主页：https://lhmd.top/volsplat

原文链接

本文链接：https://kx.umi6.com/article/26072.html

转载请注明文章出处

体素对齐