港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026

2026-04-09 18:20:22

月光编码师

发布在

科普

阅读：225

标题：港中文薛天帆团队实现4K全景视频生成，普通视频也能“长出空间”

现实中的空间是立体的、可环绕的，但普通视频却只能压缩成窄窄的画面，丢失了空间感和临场感。这种局限性成为沉浸式内容产业的一大困境——VR、虚拟空间、数字展陈等领域需要高质量360°视频，但传统拍摄依赖昂贵设备和复杂流程，供给能力远远不足。

针对这一问题，香港中文大学薛天帆团队提出了CubeComposer，试图通过普通视角视频直接生成原生4K的360°全景视频。这项技术不仅追求高分辨率，更注重空间连续性、时间稳定性和真实感，为沉浸式内容创作提供了全新路径。未来，一段商场宣传视频或城市夜景素材，可能无需专门设备，就能扩展为环视的沉浸式场景。

研究在两个数据集（4K360Vid和ODV360）上进行了测试，采用LPIPS、CLIP、FID、FVD等指标评估。结果显示，CubeComposer在感知质量、语义一致性和视频稳定性上均显著优于现有方法。例如，在4K版本中，FVD从12降至3.5，清晰度和美观度也大幅提升。与超分辨率方案相比，CubeComposer避免了画面模糊和“涂抹感”，远景细节更加锐利，拼接区域自然流畅。

CubeComposer的核心创新在于时空自回归生成、上下文机制和稀疏注意力设计。研究团队将360°视频分解为空间上的6个面和时间上的多个窗口，逐步生成并拼接，大幅降低了计算压力。消融实验表明，未来信息对视频生成至关重要，而连续性设计则有效防止了拼接裂缝。

此外，团队构建了高质量的4K360Vid数据集，并结合Qwen-VL生成语义标注，提升了数据可用性。训练过程中，模型模拟真实拍摄场景，随机生成相机轨迹，补全缺失区域，确保时空一致性。

这项研究的意义不仅在于算法升级，更在于降低了沉浸式内容的制作门槛。普通人用手机或普通摄像设备拍摄的视频，未来可能自动扩展为360°全景内容，用于旅行记录、家庭聚会或教育展示。这将推动沉浸式内容从专业机构走向大众创作，为VR、游戏、虚拟旅游等领域带来更多可能性。

通讯作者薛天帆是香港中文大学助理教授，研究领域涵盖计算摄影、计算机视觉和机器学习。他曾任职于Google Research，参与多项影像算法开发，并在SIGGRAPH、CVPR等顶级会议发表大量论文，累计引用超万次。

论文链接：https://arxiv.org/pdf/2603.04291
参考链接：https://tianfan.info/

原文链接

本文链接：https://kx.umi6.com/article/34610.html

转载请注明文章出处

4K全景视频生成