1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:仅凭360°全景视频,生成3D空间音频!

空间音频能模拟真实听觉环境,但传统技术多依赖固定视角视频,难以充分挖掘360°全景视频的空间信息。近期,OmniAudio研究解决了这一问题,它直接从360°视频生成3D空间音频,为虚拟现实和沉浸式娱乐带来新可能。相关代码和数据集已开源:https://github.com/liuhuadai/OmniAudio

为何需要从360°视频生成空间音频?传统非空间音频缺少方向信息,影响沉浸感。随着360°摄像头普及,如何生成匹配的3D空间音频成为关键。OmniAudio团队提出360V2SA任务,目标是从360°视频生成FOA音频。FOA是一种3D音频格式,用四个通道表示声音方向,比立体声更真实,头部旋转时也能保持声音定位。

OmniAudio团队创建了Sphere360数据集,这是首个大规模360V2SA数据集,包含超10万段真实视频片段,总时长288小时,涵盖288种音频事件。数据集通过半自动化pipeline构建,包括YouTube爬取、人工审核及算法清洗,确保高质量对齐。相比其他数据集,Sphere360在规模和适用性上有显著优势。

OmniAudio训练分两阶段:先用自监督方法预训练,再通过双分支视频编码器微调。预训练阶段用普通音频生成“伪FOA”,并借助掩码预测学习音频结构;真实FOA微调提升模型对空间信息的理解。最终,模型能根据360°视频生成高保真、方向准确的空间音频。

OmniAudio在Sphere360-Bench和YT360-Test上表现优异,优于所有基线。不过,面对复杂场景中的多发声物体,模型仍有改进空间。未来,团队计划优化多目标识别,并扩充数据集。项目主页:https://omniaudio-360v2sa.github.io/

原文链接
本文链接:https://kx.umi6.com/article/18607.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频
2025-05-16 13:45:30
特斯拉劲敌Rivian开发AI芯片 计划未来车型中取代英伟达产品
2025-12-12 09:44:00
对话英诺王建明:机器人目前面临的核心问题是数据 | GAIR 2025
2025-12-12 14:56:05
商务部:加大AI、大数据、云计算等技术应用 推动二手商品流通线上线下深度融合
2025-12-11 17:03:09
JEDEC 接近完成 SPHBM4 规范:I/O 引脚数量仅有标准 HBM4 内存的 1/4
2025-12-12 11:48:56
GPT-5.2 提前泄露?线索显示其已“超越 Gemini 3”
2025-12-11 16:00:08
《时代》周刊 2025 年度人物颁给“AI 建设者”,黄仁勋、奥尔特曼、苏姿丰、马斯克登上封面
2025-12-11 23:16:52
GPT-5.2提前泄露?今夜,OpenAI要拿Gemini 3祭天!
2025-12-12 15:54:18
瑞银:预计明年港股IPO规模将超3000亿元 居全球榜首
2025-12-11 17:02:49
吉林省“十五五”规划建议:统筹做好房地产、地方政府债务、中小金融机构等风险有序化解
2025-12-11 10:45:19
一级市场共识:AI正涌现大量优质资产
2025-12-11 10:41:11
ChatGPT 被指与“先杀人后自杀”案有关,OpenAI、微软双双遭到起诉
2025-12-11 20:08:53
铁流股份在杭州成立智能机器人公司 含多项AI业务
2025-12-11 10:44:29
24小时热文
更多
扫一扫体验小程序