标题:港中文薛天帆团队实现4K全景视频生成,普通视频也能“长出空间”
现实中的空间是立体的、可环绕的,但普通视频却只能压缩成窄窄的画面,丢失了空间感和临场感。这种局限性成为沉浸式内容产业的一大困境——VR、虚拟空间、数字展陈等领域需要高质量360°视频,但传统拍摄依赖昂贵设备和复杂流程,供给能力远远不足。
针对这一问题,香港中文大学薛天帆团队提出了CubeComposer,试图通过普通视角视频直接生成原生4K的360°全景视频。这项技术不仅追求高分辨率,更注重空间连续性、时间稳定性和真实感,为沉浸式内容创作提供了全新路径。未来,一段商场宣传视频或城市夜景素材,可能无需专门设备,就能扩展为环视的沉浸式场景。
研究在两个数据集(4K360Vid和ODV360)上进行了测试,采用LPIPS、CLIP、FID、FVD等指标评估。结果显示,CubeComposer在感知质量、语义一致性和视频稳定性上均显著优于现有方法。例如,在4K版本中,FVD从12降至3.5,清晰度和美观度也大幅提升。与超分辨率方案相比,CubeComposer避免了画面模糊和“涂抹感”,远景细节更加锐利,拼接区域自然流畅。
CubeComposer的核心创新在于时空自回归生成、上下文机制和稀疏注意力设计。研究团队将360°视频分解为空间上的6个面和时间上的多个窗口,逐步生成并拼接,大幅降低了计算压力。消融实验表明,未来信息对视频生成至关重要,而连续性设计则有效防止了拼接裂缝。
此外,团队构建了高质量的4K360Vid数据集,并结合Qwen-VL生成语义标注,提升了数据可用性。训练过程中,模型模拟真实拍摄场景,随机生成相机轨迹,补全缺失区域,确保时空一致性。
这项研究的意义不仅在于算法升级,更在于降低了沉浸式内容的制作门槛。普通人用手机或普通摄像设备拍摄的视频,未来可能自动扩展为360°全景内容,用于旅行记录、家庭聚会或教育展示。这将推动沉浸式内容从专业机构走向大众创作,为VR、游戏、虚拟旅游等领域带来更多可能性。
通讯作者薛天帆是香港中文大学助理教授,研究领域涵盖计算摄影、计算机视觉和机器学习。他曾任职于Google Research,参与多项影像算法开发,并在SIGGRAPH、CVPR等顶级会议发表大量论文,累计引用超万次。
论文链接:https://arxiv.org/pdf/2603.04291
参考链接:https://tianfan.info/
-
2026-04-09 19:23:46 -
2026-04-09 19:22:40 -
2026-04-09 18:21:28