标题:视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
三维场景是构建世界模型和具身智能的重要环节。尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等模型在三维生成方面取得进展,但它们主要集中在物体级别的内容生成,难以处理复杂三维场景。
清华大学与腾讯合作提出了名为“Scene Splatter”的新方法,仅需一张图像即可通过自定义相机轨迹探索三维场景。该方法基于视频扩散模型,从动量视角出发,引导生成满足三维一致性的视频片段,显著提升三维场景生成质量。
传统三维重建依赖多视角图像匹配,但在单张图像条件下缺乏几何约束,易导致结构扭曲等问题。引入视频扩散模型的生成先验可补充多视角信息,但现有模型常因生成内容不够一致而受限。
Scene Splatter受动量算法启发,设计了一种级联式动量引导视频生成策略。第一级通过动量增强视频细节和一致性;第二级引入一致性强的视频作为像素级动量,与原始生成视频融合,恢复未知区域信息。这种方法突破了视频生成长度的限制,实现了高保真三维场景重建。
实验显示,相比Flash3D、CogVideo和ViewCrafter,Scene Splatter在保持场景一致性的同时提供了更高质量的多视角视频。无论输入风格如何,无论是卡通还是真实图像,室内还是室外场景,该方法均表现出色。此外,它还能适应多种相机轨迹,支持任意视角下的三维探索。
论文链接:https://arxiv.org/abs/2504.02764
代码链接:https://github.com/shengjun-zhang/Scene-Splatter
原文链接
本文链接:https://kx.umi6.com/article/20204.html
转载请注明文章出处
相关推荐
.png)
换一换
AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题
2025-01-20 08:01:36
复旦视频扩散模型综述:覆盖300+文献,探讨近期研究趋势与突破,Github揽星2k+
2025-02-21 14:47:58
视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
2025-06-13 17:13:21
446 文章
77237 浏览
24小时热文
更多

-
2025-07-20 17:06:49
-
2025-07-20 16:05:44
-
2025-07-20 16:05:36