标题:腾讯 ARC Lab 胡文博:“如何实现三维感知的视频世界模型,这非常值得探索”|GAIR 2025
正文:
作者丨齐铖湧
编辑丨马晓宁
世界模型研究尚处于起步阶段,尚未形成共识。过去一年多,以Sora为代表的视频生成模型成为继大语言模型(LLM)后的新热点。本质上,视频生成模型是一种世界模型,其核心目标是生成逼真且连贯的视频。要实现这一目标,模型需理解世界的运作规律,如水流方向、物体碰撞运动及人体动作合理性等。
在GAIR 2025大会上,腾讯ARC Lab高级研究员胡文博发表了题为《迈向三维感知的视频世界模型》的演讲,探讨了如何让视频生成模型具备三维感知能力。他指出,尽管Sora生成的视频已具备一定3D一致性,但从三维重建角度看,仍存在墙面垂直性和平整度不足等问题。因此,领域内认为视频扩散模型有潜力作为世界模型的一种表示方式,但如何从二维视频中融入三维信息仍是关键挑战。
胡文博团队的研究分为两部分:一是从二维视频中重建三维信息,二是将重建的三维信息融入生成过程。第一部分工作包括DepthCrafter(视频深度估计)、GeometryCrafter(点云估计)、Holi4D(单目视频运动重建)和NormalCrafter(表面法线估计)。这些技术能从开放世界视频中重建高质量的三维信息。
第二部分则聚焦于如何利用三维信息增强视频扩散模型。例如,ViewCrafter通过输入单张图像生成指定相机位姿下的观测图像,支持静态场景探索;TrajectoryCrafter则针对动态场景,允许用户同时指定相机位姿和时间点,生成高质量动态视频。此外,VerseCrafter进一步实现了交互功能,支持对场景中多个物体进行交互式设计与生成。
总结来说,胡文博团队的研究实现了静态与动态场景的探索模型,并支持四维场景中的交互。这些成果依赖于开放世界三维重建技术的进步,为未来世界模型的发展提供了重要方向。
-
2025-12-31 20:40:13 -
2025-12-31 20:40:05 -
2025-12-31 18:34:48