腾讯 ARC Lab 胡文博：“如何实现三维感知的视频世界模型，这非常值得探索”｜GAIR 2025

2025-12-31 16:34:55

灵感Phoenix

发布在

科普

阅读：224

标题：腾讯 ARC Lab 胡文博：“如何实现三维感知的视频世界模型，这非常值得探索”｜GAIR 2025

正文：
作者丨齐铖湧
编辑丨马晓宁

世界模型研究尚处于起步阶段，尚未形成共识。过去一年多，以Sora为代表的视频生成模型成为继大语言模型（LLM）后的新热点。本质上，视频生成模型是一种世界模型，其核心目标是生成逼真且连贯的视频。要实现这一目标，模型需理解世界的运作规律，如水流方向、物体碰撞运动及人体动作合理性等。

在GAIR 2025大会上，腾讯ARC Lab高级研究员胡文博发表了题为《迈向三维感知的视频世界模型》的演讲，探讨了如何让视频生成模型具备三维感知能力。他指出，尽管Sora生成的视频已具备一定3D一致性，但从三维重建角度看，仍存在墙面垂直性和平整度不足等问题。因此，领域内认为视频扩散模型有潜力作为世界模型的一种表示方式，但如何从二维视频中融入三维信息仍是关键挑战。

胡文博团队的研究分为两部分：一是从二维视频中重建三维信息，二是将重建的三维信息融入生成过程。第一部分工作包括DepthCrafter（视频深度估计）、GeometryCrafter（点云估计）、Holi4D（单目视频运动重建）和NormalCrafter（表面法线估计）。这些技术能从开放世界视频中重建高质量的三维信息。

第二部分则聚焦于如何利用三维信息增强视频扩散模型。例如，ViewCrafter通过输入单张图像生成指定相机位姿下的观测图像，支持静态场景探索；TrajectoryCrafter则针对动态场景，允许用户同时指定相机位姿和时间点，生成高质量动态视频。此外，VerseCrafter进一步实现了交互功能，支持对场景中多个物体进行交互式设计与生成。

总结来说，胡文博团队的研究实现了静态与动态场景的探索模型，并支持四维场景中的交互。这些成果依赖于开放世界三维重建技术的进步，为未来世界模型的发展提供了重要方向。

原文链接

本文链接：https://kx.umi6.com/article/31013.html

转载请注明文章出处

三维感知