ICLR 2025 Spotlight:港科北邮团队通过文本控制声源方向实现音频生成新突破!
兔子利用双耳感知环境,类似地,人类也需要双耳来享受电影、判断驾驶环境。然而,应用广泛的diffusion生成模型能否直接生成符合物理规律的空间音频?
此前,Text2Audio模型可通过文本生成单通道音频。但人类天生具备感知双通道音频的能力,因此,通过文本控制多通道音频在影视娱乐、AR/VR等领域有重要应用。
港科大北邮团队首次从数据、模型和评价标准角度创新性地将控制声源方向纳入多通道音频生成范围。空间音频生成依赖于ITD(耳间时间差)、ILD(耳间声强差)和复杂的生理结构。团队创建了BEWO-1M数据集,包含超过100万条音频-文本对,支持动态声源和多声源等复杂场景。
研究团队提出了一种新的生成方法,通过自然语言控制模型,提高了音频方向的控制精度。此外,他们还开发了多种评估算法,包括基于ITD的方法,证明了模型在文本引导的空间音频生成上的优越性。
未来,团队计划引入HRTF模拟耳道等真实感知,改善数据集的多样性和模型的泛化能力。项目主页和相关资源已在文中列出。
原文链接
本文链接:https://kx.umi6.com/article/13523.html
转载请注明文章出处
相关推荐
换一换
香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈
2025-02-21 17:59:53
人形机器人:最初的设想,最后的归宿
2025-04-22 08:09:04
稚晖君后宇树也来玩开源了:机器人操作数据集,采用抱抱脸LeRobot训练测试,网友:泰裤辣!
2024-11-13 15:40:13
全球最大甲骨文“数据集”开源
2024-07-06 03:51:10
全球首个:智元机器人宣布开源 AgiBot World 百万真机数据集,大幅超越谷歌 Open X-Embodiment
2024-12-30 13:17:17
国家数据局指导:DexonomySim 具身智能灵巧手多样抓取仿真数据集正式开源发布,用于 AI 机器人训练
2025-09-01 23:24:23
全自动组装家具,斯坦福发布 IKEA Video Manuals 数据集
2024-12-03 11:14:31
ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频
2025-02-17 09:42:01
27、42、73,DeepSeek这些大模型竟都喜欢这些数
2025-06-19 15:53:04
空间智能新进展:教机器人组装宜家家具,首次实现操作步骤与真实视频对齐 | NeurIPS
2024-11-26 21:39:56
傅利叶开源全尺寸人形机器人数据集,首批上线超3万条真机数据
2025-03-17 12:36:41
大规模多构型具身智能新数据集和基准:5.5万条机器人轨迹数据,279项不同任务
2024-12-27 14:01:36
蚂蚁数科向全球开源180万深度伪造定位数据集,助力AI算法可解释
2025-08-18 16:48:37
560 文章
262226 浏览
24小时热文
更多
-
2025-10-26 12:08:39 -
2025-10-26 09:02:15 -
2025-10-26 08:00:01