标题:腾讯胡文博:引领 3D 视频世界模型新趋势丨GAIR 2025
2025年12月12-13日,第八届GAIR全球人工智能与机器人大会将在深圳举办。大会聚焦大模型、算力变革及世界模型等议题,描绘AI前沿探索的未来图景。腾讯ARC实验室高级研究员胡文博将于12月13日发表《迈向三维感知的视频世界模型》主题演讲,分享其最新研究成果。
近年来,以Sora为代表的视频生成模型成为学术热点。这类模型本质上是世界模型,旨在生成逼真、连贯的视频,需理解物理规律(如水流方向、物体运动等)。胡文博正是这一领域的新生代力量。他于2022年获香港中文大学计算机科学博士学位,已发表20余篇论文,并在图形学领域崭露头角。
胡文博的研究始于2018年大连理工大学毕业后,他在香港中文大学攻读博士期间,曾在大疆、阿里巴巴达摩院、腾讯等企业实习。2022年加入字节跳动后,他发表了备受关注的《Tri-MipRF》,提出一种新型Tri-Mip编码技术,显著提升神经辐射场的渲染质量和效率。该论文入围ICCV'2023最佳论文决赛,并获CVPR'2025最佳论文奖。
2023年11月,胡文博加入腾讯,继续深耕生成式世界模型。今年9月,他发表《Rolling Forcing》论文,提出“滚动强制”技术,实现低延迟、高质量的长视频流生成。该技术通过联合去噪、注意力机制和高效训练算法,大幅减少误差累积,可在单块GPU上实时生成数分钟视频。
胡文博认为,现有视频生成模型虽强大,但多基于2D建模,难以保证3D一致性。为此,他提出ViewCrafter和TrajectoryCrafter方案,分别用于静态场景生成和4D场景探索,推动模型向精确相机可控的世界模拟器迈进。
12月13日,胡文博将分享其在3D感知视频世界模型领域的最新突破,带领观众一窥AI从2D迈向3D的新时代。让我们共同期待这场科技盛宴。
-
2025-12-07 10:27:01 -
2025-12-07 10:25:53 -
2025-12-07 10:24:46