首个沉浸式体积视频数据集ImViD上线,定义沉浸式媒体新形态
Meta用天价打造“元宇宙”却受制于卡通画风,Vision Pro的3-DoF体验让用户眩晕,苹果穹顶摄影棚仅能产出“人像手办”……这一切表明,没有高保真体积视频的元宇宙只是高清版《我的世界》。
清华大学-咪咕团队在CVPR 2025发布《ImViD: 动态体积视频重建与渲染》,从360°真实光场到多模态6-DoF交互,将VR体验推向“穿越时空的在场感”。
传统体积视频面临三大挑战:Google的光场支持6-DoF但视角有限,Apple的视频提供环绕声但仅限3-DoF,Infinite Reality的空间捕获虽高精度但成本高昂且适用范围窄。
ImViD突破四大瓶颈:全视角覆盖、大空间交互、多模态采集、长时长内容。团队构建了全球首个多模态体积视频数据集,包含7大场景、13万帧、38分钟内容,支持自由移动与完全沉浸。
硬件方面,团队搭建46台GoPro阵列与可移动平台,毫米级时间同步,支持定点与动态拍摄。光场重建采用STG++算法,声场建模结合HRTF与RIR,实现真实感渲染。
实验显示,STG++达31.24 PSNR、110 FPS,声场感知获专家高度评价。未来,ImViD将在影视、教育、医疗等领域发挥潜力,并推动移动端交互发展。项目主页与代码已全面开源。
原文链接
本文链接:https://kx.umi6.com/article/20120.html
转载请注明文章出处
相关推荐
.png)
换一换
大规模多构型具身智能新数据集和基准:5.5万条机器人轨迹数据,279项不同任务
2024-12-27 14:01:36
傅利叶开源全尺寸人形机器人数据集,首批上线超3万条真机数据
2025-03-17 12:36:41
Stable Diffusion 3开源秒翻车,画人好掉san
2024-06-13 19:30:09
431 文章
68481 浏览
24小时热文
更多

-
2025-07-20 23:09:27
-
2025-07-20 22:09:17
-
2025-07-20 21:10:03