1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:港中文薛天帆团队实现4K全景视频生成,普通视频也能“长出空间”

现实中的空间是立体的、可环绕的,但普通视频却只能压缩成窄窄的画面,丢失了空间感和临场感。这种局限性成为沉浸式内容产业的一大困境——VR、虚拟空间、数字展陈等领域需要高质量360°视频,但传统拍摄依赖昂贵设备和复杂流程,供给能力远远不足。

针对这一问题,香港中文大学薛天帆团队提出了CubeComposer,试图通过普通视角视频直接生成原生4K的360°全景视频。这项技术不仅追求高分辨率,更注重空间连续性、时间稳定性和真实感,为沉浸式内容创作提供了全新路径。未来,一段商场宣传视频或城市夜景素材,可能无需专门设备,就能扩展为环视的沉浸式场景。

研究在两个数据集(4K360Vid和ODV360)上进行了测试,采用LPIPS、CLIP、FID、FVD等指标评估。结果显示,CubeComposer在感知质量、语义一致性和视频稳定性上均显著优于现有方法。例如,在4K版本中,FVD从12降至3.5,清晰度和美观度也大幅提升。与超分辨率方案相比,CubeComposer避免了画面模糊和“涂抹感”,远景细节更加锐利,拼接区域自然流畅。

CubeComposer的核心创新在于时空自回归生成、上下文机制和稀疏注意力设计。研究团队将360°视频分解为空间上的6个面和时间上的多个窗口,逐步生成并拼接,大幅降低了计算压力。消融实验表明,未来信息对视频生成至关重要,而连续性设计则有效防止了拼接裂缝。

此外,团队构建了高质量的4K360Vid数据集,并结合Qwen-VL生成语义标注,提升了数据可用性。训练过程中,模型模拟真实拍摄场景,随机生成相机轨迹,补全缺失区域,确保时空一致性。

这项研究的意义不仅在于算法升级,更在于降低了沉浸式内容的制作门槛。普通人用手机或普通摄像设备拍摄的视频,未来可能自动扩展为360°全景内容,用于旅行记录、家庭聚会或教育展示。这将推动沉浸式内容从专业机构走向大众创作,为VR、游戏、虚拟旅游等领域带来更多可能性。

通讯作者薛天帆是香港中文大学助理教授,研究领域涵盖计算摄影、计算机视觉和机器学习。他曾任职于Google Research,参与多项影像算法开发,并在SIGGRAPH、CVPR等顶级会议发表大量论文,累计引用超万次。

论文链接:https://arxiv.org/pdf/2603.04291
参考链接:https://tianfan.info/

原文链接
本文链接:https://kx.umi6.com/article/34610.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
苹果放缓沉浸式视频的发布节奏
2025-08-18 10:44:59
刚刚,姚顺雨现身!公开回应腾讯AI落后了吗?
2026-06-05 12:54:51
苹果抨击“为AI而AI”:真正有用的AI需以用户为中心
2026-06-09 07:06:40
蚂蚁集团推出海外AI支付解决方案 商户可实现全球智能体运营
2026-06-08 19:40:56
估值2.5亿美元!全球首个AI游戏社区Aippy完成独立融资
2026-06-08 07:13:40
OpenAI芯片核心叛逃Anthropic!就在量产前夜
2026-06-07 20:48:02
微信AI自动模式开启内测!用户一句话 可直接操作小程序页面
2026-06-08 17:42:03
AI正加速劣质假新闻传播 詹姆斯发声吐槽:你们觉得呢
2026-06-08 10:19:48
5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队
2026-06-07 09:22:47
扣子3.0实测:手机就能远程遥控你电脑里的Agent
2026-06-04 09:58:01
有人靠CPU把AI算力密度卷到了新高度
2026-06-05 22:17:47
Hinton吹哨了:AI已经有意识!
2026-06-06 15:51:41
有余凯不投的地平线离职创业员工吗?
2026-06-07 21:50:41
24小时热文
更多
扫一扫体验小程序