1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

ICLR 2025 Spotlight:港科北邮团队通过文本控制声源方向实现音频生成新突破!

兔子利用双耳感知环境,类似地,人类也需要双耳来享受电影、判断驾驶环境。然而,应用广泛的diffusion生成模型能否直接生成符合物理规律的空间音频?

此前,Text2Audio模型可通过文本生成单通道音频。但人类天生具备感知双通道音频的能力,因此,通过文本控制多通道音频在影视娱乐、AR/VR等领域有重要应用。

港科大北邮团队首次从数据、模型和评价标准角度创新性地将控制声源方向纳入多通道音频生成范围。空间音频生成依赖于ITD(耳间时间差)、ILD(耳间声强差)和复杂的生理结构。团队创建了BEWO-1M数据集,包含超过100万条音频-文本对,支持动态声源和多声源等复杂场景。

研究团队提出了一种新的生成方法,通过自然语言控制模型,提高了音频方向的控制精度。此外,他们还开发了多种评估算法,包括基于ITD的方法,证明了模型在文本引导的空间音频生成上的优越性。

未来,团队计划引入HRTF模拟耳道等真实感知,改善数据集的多样性和模型的泛化能力。项目主页和相关资源已在文中列出。

原文链接
本文链接:https://kx.umi6.com/article/13523.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球首个:智元机器人宣布开源 AgiBot World 百万真机数据集,大幅超越谷歌 Open X-Embodiment
2024-12-30 13:17:17
全球最大甲骨文“数据集”开源
2024-07-06 03:51:10
香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈
2025-02-21 17:59:53
24小时热文
更多
扫一扫体验小程序