1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:腾讯 ARC Lab 胡文博:“如何实现三维感知的视频世界模型,这非常值得探索”|GAIR 2025

正文:
作者丨齐铖湧
编辑丨马晓宁

世界模型研究尚处于起步阶段,尚未形成共识。过去一年多,以Sora为代表的视频生成模型成为继大语言模型(LLM)后的新热点。本质上,视频生成模型是一种世界模型,其核心目标是生成逼真且连贯的视频。要实现这一目标,模型需理解世界的运作规律,如水流方向、物体碰撞运动及人体动作合理性等。

在GAIR 2025大会上,腾讯ARC Lab高级研究员胡文博发表了题为《迈向三维感知的视频世界模型》的演讲,探讨了如何让视频生成模型具备三维感知能力。他指出,尽管Sora生成的视频已具备一定3D一致性,但从三维重建角度看,仍存在墙面垂直性和平整度不足等问题。因此,领域内认为视频扩散模型有潜力作为世界模型的一种表示方式,但如何从二维视频中融入三维信息仍是关键挑战。

胡文博团队的研究分为两部分:一是从二维视频中重建三维信息,二是将重建的三维信息融入生成过程。第一部分工作包括DepthCrafter(视频深度估计)、GeometryCrafter(点云估计)、Holi4D(单目视频运动重建)和NormalCrafter(表面法线估计)。这些技术能从开放世界视频中重建高质量的三维信息。

第二部分则聚焦于如何利用三维信息增强视频扩散模型。例如,ViewCrafter通过输入单张图像生成指定相机位姿下的观测图像,支持静态场景探索;TrajectoryCrafter则针对动态场景,允许用户同时指定相机位姿和时间点,生成高质量动态视频。此外,VerseCrafter进一步实现了交互功能,支持对场景中多个物体进行交互式设计与生成。

总结来说,胡文博团队的研究实现了静态与动态场景的探索模型,并支持四维场景中的交互。这些成果依赖于开放世界三维重建技术的进步,为未来世界模型的发展提供了重要方向。

原文链接
本文链接:https://kx.umi6.com/article/31013.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯 ARC Lab 胡文博:“如何实现三维感知的视频世界模型,这非常值得探索”|GAIR 2025
2025-12-31 16:34:55
原力灵机提出GeoVLA:让机器人看懂三维世界,打破2D视觉枷锁
2025-12-24 22:00:59
哈工大、博实股份联合发布两款人形机器人:7 自由度串并混联机械臂,自研 AI 大模型
2025-12-29 17:34:10
全球AI制药领军企业英矽智能成功登陆港交所
2025-12-31 13:20:07
AI手串、AI调香、AI照相机……AI养活小摊贩?
2025-12-30 01:52:05
Meta 收购 Manus 细节曝光,开价 20 亿美元闪电成交
2025-12-31 16:29:56
明年手机PC全线涨价!这个锅 AI必须得背
2025-12-29 18:36:46
对科技圈,小红书是个「新绿洲」
2025-12-30 13:21:31
中方如何评论Meta将收购Manus?外交部:建议记者向主管部门询问
2025-12-30 16:29:17
教育部:加快建设中国自主可控的教育人工智能大模型
2025-12-30 15:32:08
以色列 AI21 Labs 否认与英伟达交易传闻:正与多方洽谈
2025-12-31 15:26:01
Kimi完成5亿美元C轮融资 账面现金超百亿
2025-12-31 16:39:47
AI 魔改视频泛滥,国家广播电视总局出手治理
2025-12-31 10:10:33
24小时热文
更多
扫一扫体验小程序