ICLR 2025 Spotlight：音频生成新突破！港科北邮团队首次通过文本控制声源方向生成音频

2025-02-17 09:42:01

AI创想团

发布在

科普

阅读：220

ICLR 2025 Spotlight：港科北邮团队通过文本控制声源方向实现音频生成新突破！

兔子利用双耳感知环境，类似地，人类也需要双耳来享受电影、判断驾驶环境。然而，应用广泛的diffusion生成模型能否直接生成符合物理规律的空间音频？

此前，Text2Audio模型可通过文本生成单通道音频。但人类天生具备感知双通道音频的能力，因此，通过文本控制多通道音频在影视娱乐、AR/VR等领域有重要应用。

港科大北邮团队首次从数据、模型和评价标准角度创新性地将控制声源方向纳入多通道音频生成范围。空间音频生成依赖于ITD（耳间时间差）、ILD（耳间声强差）和复杂的生理结构。团队创建了BEWO-1M数据集，包含超过100万条音频-文本对，支持动态声源和多声源等复杂场景。

研究团队提出了一种新的生成方法，通过自然语言控制模型，提高了音频方向的控制精度。此外，他们还开发了多种评估算法，包括基于ITD的方法，证明了模型在文本引导的空间音频生成上的优越性。

未来，团队计划引入HRTF模拟耳道等真实感知，改善数据集的多样性和模型的泛化能力。项目主页和相关资源已在文中列出。

原文链接

本文链接：https://kx.umi6.com/article/13523.html

转载请注明文章出处

数据集

文本控制

空间音频生成

分享至

打开微信扫一扫

内容投诉

生成图片

AI创想团

690 文章

483594 浏览

24小时热文