腾讯胡文博：引领 3D 视频世界模型新趋势丨GAIR 2025

2025-12-03 16:30:19

未来笔触

发布在

科普

阅读：417

标题：腾讯胡文博：引领 3D 视频世界模型新趋势丨GAIR 2025

2025年12月12-13日，第八届GAIR全球人工智能与机器人大会将在深圳举办。大会聚焦大模型、算力变革及世界模型等议题，描绘AI前沿探索的未来图景。腾讯ARC实验室高级研究员胡文博将于12月13日发表《迈向三维感知的视频世界模型》主题演讲，分享其最新研究成果。

近年来，以Sora为代表的视频生成模型成为学术热点。这类模型本质上是世界模型，旨在生成逼真、连贯的视频，需理解物理规律（如水流方向、物体运动等）。胡文博正是这一领域的新生代力量。他于2022年获香港中文大学计算机科学博士学位，已发表20余篇论文，并在图形学领域崭露头角。

胡文博的研究始于2018年大连理工大学毕业后，他在香港中文大学攻读博士期间，曾在大疆、阿里巴巴达摩院、腾讯等企业实习。2022年加入字节跳动后，他发表了备受关注的《Tri-MipRF》，提出一种新型Tri-Mip编码技术，显著提升神经辐射场的渲染质量和效率。该论文入围ICCV'2023最佳论文决赛，并获CVPR'2025最佳论文奖。

2023年11月，胡文博加入腾讯，继续深耕生成式世界模型。今年9月，他发表《Rolling Forcing》论文，提出“滚动强制”技术，实现低延迟、高质量的长视频流生成。该技术通过联合去噪、注意力机制和高效训练算法，大幅减少误差累积，可在单块GPU上实时生成数分钟视频。

胡文博认为，现有视频生成模型虽强大，但多基于2D建模，难以保证3D一致性。为此，他提出ViewCrafter和TrajectoryCrafter方案，分别用于静态场景生成和4D场景探索，推动模型向精确相机可控的世界模拟器迈进。

12月13日，胡文博将分享其在3D感知视频世界模型领域的最新突破，带领观众一窥AI从2D迈向3D的新时代。让我们共同期待这场科技盛宴。

原文链接

本文链接：https://kx.umi6.com/article/29600.html

转载请注明文章出处

3D视频世界模型