标题:视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
三维场景是构建世界模型和具身智能的重要环节。尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等模型在三维生成方面取得进展,但它们主要集中在物体级别的内容生成,难以处理复杂三维场景。
清华大学与腾讯合作提出了名为“Scene Splatter”的新方法,仅需一张图像即可通过自定义相机轨迹探索三维场景。该方法基于视频扩散模型,从动量视角出发,引导生成满足三维一致性的视频片段,显著提升三维场景生成质量。
传统三维重建依赖多视角图像匹配,但在单张图像条件下缺乏几何约束,易导致结构扭曲等问题。引入视频扩散模型的生成先验可补充多视角信息,但现有模型常因生成内容不够一致而受限。
Scene Splatter受动量算法启发,设计了一种级联式动量引导视频生成策略。第一级通过动量增强视频细节和一致性;第二级引入一致性强的视频作为像素级动量,与原始生成视频融合,恢复未知区域信息。这种方法突破了视频生成长度的限制,实现了高保真三维场景重建。
实验显示,相比Flash3D、CogVideo和ViewCrafter,Scene Splatter在保持场景一致性的同时提供了更高质量的多视角视频。无论输入风格如何,无论是卡通还是真实图像,室内还是室外场景,该方法均表现出色。此外,它还能适应多种相机轨迹,支持任意视角下的三维探索。
论文链接:https://arxiv.org/abs/2504.02764
代码链接:https://github.com/shengjun-zhang/Scene-Splatter
原文链接
本文链接:https://kx.umi6.com/article/20204.html
转载请注明文章出处
相关推荐
换一换
复旦视频扩散模型综述:覆盖300+文献,探讨近期研究趋势与突破,Github揽星2k+
2025-02-21 14:47:58
AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题
2025-01-20 08:01:36
一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单
2025-02-03 22:18:30
视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
2025-06-13 17:13:21
摩根大通CEO谈AI:使人们可以工作不那么辛苦 享受美好生活
2025-12-08 11:23:28
全球首个光子芯片全链垂直大模型 LightSeek 开放:整合国内首条中试线数据,整体研发效率提升 7 倍
2025-12-08 18:40:02
陕西“十五五”规划建议:组建陕西人工智能产业联盟 打造西部人工智能发展高地
2025-12-08 09:18:51
广西“十五五”规划建议:积极发展股权、债券等直接融资 支持上市公司提质
2025-12-07 10:25:53
Oculus 创始人拉奇为在战争中使用 AI 辩护:使用落后技术并无道德高地可言
2025-12-08 09:15:22
广东“十五五”规划建议:深入推进数字广东建设 加强人工智能治理
2025-12-08 08:14:45
联想天禧AI足球智能体正式上线,亮相咪咕世界杯抽签夜直播
2025-12-06 17:40:08
Roblox CEO 巴祖基感叹 AI 研究速度:曾博览群书的自己,现在都快看不懂了
2025-12-08 19:43:05
跨境电商的疑难杂症,被1688这个AI全包了…
2025-12-07 13:28:44
611 文章
369427 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57