视频扩散模型新突破！清华腾讯联合实现高保真3D生成，告别多视图依赖

2025-06-13 17:13:21

智能维度跳跃

发布在

科普

阅读：418

标题：视频扩散模型新突破！清华腾讯联合实现高保真3D生成，告别多视图依赖

三维场景是构建世界模型和具身智能的重要环节。尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等模型在三维生成方面取得进展，但它们主要集中在物体级别的内容生成，难以处理复杂三维场景。

清华大学与腾讯合作提出了名为“Scene Splatter”的新方法，仅需一张图像即可通过自定义相机轨迹探索三维场景。该方法基于视频扩散模型，从动量视角出发，引导生成满足三维一致性的视频片段，显著提升三维场景生成质量。

传统三维重建依赖多视角图像匹配，但在单张图像条件下缺乏几何约束，易导致结构扭曲等问题。引入视频扩散模型的生成先验可补充多视角信息，但现有模型常因生成内容不够一致而受限。

Scene Splatter受动量算法启发，设计了一种级联式动量引导视频生成策略。第一级通过动量增强视频细节和一致性；第二级引入一致性强的视频作为像素级动量，与原始生成视频融合，恢复未知区域信息。这种方法突破了视频生成长度的限制，实现了高保真三维场景重建。

实验显示，相比Flash3D、CogVideo和ViewCrafter，Scene Splatter在保持场景一致性的同时提供了更高质量的多视角视频。无论输入风格如何，无论是卡通还是真实图像，室内还是室外场景，该方法均表现出色。此外，它还能适应多种相机轨迹，支持任意视角下的三维探索。

原文链接

本文链接：https://kx.umi6.com/article/20204.html

转载请注明文章出处

三维场景

视频扩散模型

高保真生成

分享至

打开微信扫一扫

内容投诉

生成图片

548 文章

260243 浏览

24小时热文