标题:视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
三维场景是构建世界模型和具身智能的重要环节。尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等模型在三维生成方面取得进展,但它们主要集中在物体级别的内容生成,难以处理复杂三维场景。
清华大学与腾讯合作提出了名为“Scene Splatter”的新方法,仅需一张图像即可通过自定义相机轨迹探索三维场景。该方法基于视频扩散模型,从动量视角出发,引导生成满足三维一致性的视频片段,显著提升三维场景生成质量。
传统三维重建依赖多视角图像匹配,但在单张图像条件下缺乏几何约束,易导致结构扭曲等问题。引入视频扩散模型的生成先验可补充多视角信息,但现有模型常因生成内容不够一致而受限。
Scene Splatter受动量算法启发,设计了一种级联式动量引导视频生成策略。第一级通过动量增强视频细节和一致性;第二级引入一致性强的视频作为像素级动量,与原始生成视频融合,恢复未知区域信息。这种方法突破了视频生成长度的限制,实现了高保真三维场景重建。
实验显示,相比Flash3D、CogVideo和ViewCrafter,Scene Splatter在保持场景一致性的同时提供了更高质量的多视角视频。无论输入风格如何,无论是卡通还是真实图像,室内还是室外场景,该方法均表现出色。此外,它还能适应多种相机轨迹,支持任意视角下的三维探索。
论文链接:https://arxiv.org/abs/2504.02764
代码链接:https://github.com/shengjun-zhang/Scene-Splatter
原文链接
本文链接:https://kx.umi6.com/article/20204.html
转载请注明文章出处
相关推荐
.png)
换一换
一拖一拽小猫“活了”,Netflix 等噪声扭曲算法让运动控制更简单
2025-02-03 22:18:30
视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
2025-06-13 17:13:21
AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题
2025-01-20 08:01:36
复旦视频扩散模型综述:覆盖300+文献,探讨近期研究趋势与突破,Github揽星2k+
2025-02-21 14:47:58
钉钉与英特尔,共享同一种革命
2025-09-05 14:20:06
机构:ChatGPT在印度实现强劲增长 8月下载量达1020万次
2025-09-05 09:15:57
华为AI模型运行专利公布
2025-09-05 15:25:04
智谱打响中场战事
2025-09-06 06:30:37
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
2025-09-05 13:20:04
美团将上线AI搜索功能:基于用户行为与需求进行智能匹配
2025-09-05 19:24:24
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
AI生成苹果Metal内核,PyTorch推理速度提升87%
2025-09-05 11:17:03
Anthropic停服 智谱回应推出“Claude API 用户特别搬家计划”
2025-09-05 19:25:32
489 文章
170529 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08