1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

ICLR 2025 Spotlight:港科北邮团队通过文本控制声源方向实现音频生成新突破!

兔子利用双耳感知环境,类似地,人类也需要双耳来享受电影、判断驾驶环境。然而,应用广泛的diffusion生成模型能否直接生成符合物理规律的空间音频?

此前,Text2Audio模型可通过文本生成单通道音频。但人类天生具备感知双通道音频的能力,因此,通过文本控制多通道音频在影视娱乐、AR/VR等领域有重要应用。

港科大北邮团队首次从数据、模型和评价标准角度创新性地将控制声源方向纳入多通道音频生成范围。空间音频生成依赖于ITD(耳间时间差)、ILD(耳间声强差)和复杂的生理结构。团队创建了BEWO-1M数据集,包含超过100万条音频-文本对,支持动态声源和多声源等复杂场景。

研究团队提出了一种新的生成方法,通过自然语言控制模型,提高了音频方向的控制精度。此外,他们还开发了多种评估算法,包括基于ITD的方法,证明了模型在文本引导的空间音频生成上的优越性。

未来,团队计划引入HRTF模拟耳道等真实感知,改善数据集的多样性和模型的泛化能力。项目主页和相关资源已在文中列出。

原文链接
本文链接:https://kx.umi6.com/article/13523.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
傅利叶开源全尺寸人形机器人数据集,首批上线超3万条真机数据
2025-03-17 12:36:41
Stable Diffusion 3开源秒翻车,画人好掉san
2024-06-13 19:30:09
AI画不出的左手,是因为我们给了它一个偏科的童年
2025-12-11 14:56:05
香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈
2025-02-21 17:59:53
华为云CEO周跃峰:加速医疗AI落地,共建共享行业模型、高质量数据集等
2026-02-02 13:38:37
谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
2025-02-13 18:12:26
全球首个:智元机器人宣布开源 AgiBot World 百万真机数据集,大幅超越谷歌 Open X-Embodiment
2024-12-30 13:17:17
全球最大甲骨文“数据集”开源
2024-07-06 03:51:10
全自动组装家具,斯坦福发布 IKEA Video Manuals 数据集
2024-12-03 11:14:31
国家数据局指导:DexonomySim 具身智能灵巧手多样抓取仿真数据集正式开源发布,用于 AI 机器人训练
2025-09-01 23:24:23
大规模多构型具身智能新数据集和基准:5.5万条机器人轨迹数据,279项不同任务
2024-12-27 14:01:36
ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频
2025-02-17 09:42:01
蚂蚁数科向全球开源180万深度伪造定位数据集,助力AI算法可解释
2025-08-18 16:48:37
24小时热文
更多
扫一扫体验小程序