1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:港中文薛天帆团队实现4K全景视频生成,普通视频也能“长出空间”

现实中的空间是立体的、可环绕的,但普通视频却只能压缩成窄窄的画面,丢失了空间感和临场感。这种局限性成为沉浸式内容产业的一大困境——VR、虚拟空间、数字展陈等领域需要高质量360°视频,但传统拍摄依赖昂贵设备和复杂流程,供给能力远远不足。

针对这一问题,香港中文大学薛天帆团队提出了CubeComposer,试图通过普通视角视频直接生成原生4K的360°全景视频。这项技术不仅追求高分辨率,更注重空间连续性、时间稳定性和真实感,为沉浸式内容创作提供了全新路径。未来,一段商场宣传视频或城市夜景素材,可能无需专门设备,就能扩展为环视的沉浸式场景。

研究在两个数据集(4K360Vid和ODV360)上进行了测试,采用LPIPS、CLIP、FID、FVD等指标评估。结果显示,CubeComposer在感知质量、语义一致性和视频稳定性上均显著优于现有方法。例如,在4K版本中,FVD从12降至3.5,清晰度和美观度也大幅提升。与超分辨率方案相比,CubeComposer避免了画面模糊和“涂抹感”,远景细节更加锐利,拼接区域自然流畅。

CubeComposer的核心创新在于时空自回归生成、上下文机制和稀疏注意力设计。研究团队将360°视频分解为空间上的6个面和时间上的多个窗口,逐步生成并拼接,大幅降低了计算压力。消融实验表明,未来信息对视频生成至关重要,而连续性设计则有效防止了拼接裂缝。

此外,团队构建了高质量的4K360Vid数据集,并结合Qwen-VL生成语义标注,提升了数据可用性。训练过程中,模型模拟真实拍摄场景,随机生成相机轨迹,补全缺失区域,确保时空一致性。

这项研究的意义不仅在于算法升级,更在于降低了沉浸式内容的制作门槛。普通人用手机或普通摄像设备拍摄的视频,未来可能自动扩展为360°全景内容,用于旅行记录、家庭聚会或教育展示。这将推动沉浸式内容从专业机构走向大众创作,为VR、游戏、虚拟旅游等领域带来更多可能性。

通讯作者薛天帆是香港中文大学助理教授,研究领域涵盖计算摄影、计算机视觉和机器学习。他曾任职于Google Research,参与多项影像算法开发,并在SIGGRAPH、CVPR等顶级会议发表大量论文,累计引用超万次。

论文链接:https://arxiv.org/pdf/2603.04291
参考链接:https://tianfan.info/

原文链接
本文链接:https://kx.umi6.com/article/34610.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
锚定AI主线 50只基金复权净值创历史新高
2026-04-09 06:50:59
MiniMax发布命令行工具MMX-CLI
2026-04-09 12:08:20
全球加速布局太空算力 天地协同的算力网络也将加速构建
2026-04-07 21:19:18
开源模型首超Opus4.6!智谱GLM-5.1登场,14小时后CUDA专家被冲了
2026-04-08 14:58:04
Skill vs App:一场入口范式的争夺
2026-04-08 12:53:31
Claude封杀龙虾后推自家Agent服务,又被开源平替了
2026-04-09 15:12:47
武大文科教授硬核跨界AI:半年项目量猛涨4000%,重构AI图表生产力
2026-04-08 23:32:29
宁波能源、宇树科技等成立机器人研究院公司
2026-04-09 11:02:23
OpenAI因能源成本问题暂停英国“星际之门”项目
2026-04-09 19:23:46
三星电机向苹果公司提供半导体玻璃基板样品
2026-04-07 20:18:36
AI大佬犀利发声:AI已淘汰大批岗位 大学还在批量生产过时人才
2026-04-08 11:51:14
百度盘前涨超4%!Create2026定档五月 迎来全面升级
2026-04-08 23:33:35
AI时代 共享算力是新码农们的小黄车
2026-04-08 14:59:13
24小时热文
更多
扫一扫体验小程序