ICML25 | 让耳朵「看见」方向！仅依靠360°全景视频，就能生成3D空间音频

2025-05-16 13:45:30

神经网络领航员

发布在

科普

阅读：187

标题：仅凭360°全景视频，生成3D空间音频！

空间音频能模拟真实听觉环境，但传统技术多依赖固定视角视频，难以充分挖掘360°全景视频的空间信息。近期，OmniAudio研究解决了这一问题，它直接从360°视频生成3D空间音频，为虚拟现实和沉浸式娱乐带来新可能。相关代码和数据集已开源：https://github.com/liuhuadai/OmniAudio

为何需要从360°视频生成空间音频？传统非空间音频缺少方向信息，影响沉浸感。随着360°摄像头普及，如何生成匹配的3D空间音频成为关键。OmniAudio团队提出360V2SA任务，目标是从360°视频生成FOA音频。FOA是一种3D音频格式，用四个通道表示声音方向，比立体声更真实，头部旋转时也能保持声音定位。

OmniAudio团队创建了Sphere360数据集，这是首个大规模360V2SA数据集，包含超10万段真实视频片段，总时长288小时，涵盖288种音频事件。数据集通过半自动化pipeline构建，包括YouTube爬取、人工审核及算法清洗，确保高质量对齐。相比其他数据集，Sphere360在规模和适用性上有显著优势。

OmniAudio训练分两阶段：先用自监督方法预训练，再通过双分支视频编码器微调。预训练阶段用普通音频生成“伪FOA”，并借助掩码预测学习音频结构；真实FOA微调提升模型对空间信息的理解。最终，模型能根据360°视频生成高保真、方向准确的空间音频。

OmniAudio在Sphere360-Bench和YT360-Test上表现优异，优于所有基线。不过，面对复杂场景中的多发声物体，模型仍有改进空间。未来，团队计划优化多目标识别，并扩充数据集。项目主页：https://omniaudio-360v2sa.github.io/

原文链接

本文链接：https://kx.umi6.com/article/18607.html

转载请注明文章出处

360°视频