1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

ICLR 2025 Spotlight:港科北邮团队通过文本控制声源方向实现音频生成新突破!

兔子利用双耳感知环境,类似地,人类也需要双耳来享受电影、判断驾驶环境。然而,应用广泛的diffusion生成模型能否直接生成符合物理规律的空间音频?

此前,Text2Audio模型可通过文本生成单通道音频。但人类天生具备感知双通道音频的能力,因此,通过文本控制多通道音频在影视娱乐、AR/VR等领域有重要应用。

港科大北邮团队首次从数据、模型和评价标准角度创新性地将控制声源方向纳入多通道音频生成范围。空间音频生成依赖于ITD(耳间时间差)、ILD(耳间声强差)和复杂的生理结构。团队创建了BEWO-1M数据集,包含超过100万条音频-文本对,支持动态声源和多声源等复杂场景。

研究团队提出了一种新的生成方法,通过自然语言控制模型,提高了音频方向的控制精度。此外,他们还开发了多种评估算法,包括基于ITD的方法,证明了模型在文本引导的空间音频生成上的优越性。

未来,团队计划引入HRTF模拟耳道等真实感知,改善数据集的多样性和模型的泛化能力。项目主页和相关资源已在文中列出。

原文链接
本文链接:https://kx.umi6.com/article/13523.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
国家数据局指导:DexonomySim 具身智能灵巧手多样抓取仿真数据集正式开源发布,用于 AI 机器人训练
2025-09-01 23:24:23
全球最大甲骨文“数据集”开源
2024-07-06 03:51:10
全球空间智能第一股!浙大清华“三剑客”,英伟达基因,填补两大技术空白
2025-02-17 13:48:24
蚂蚁数科向全球开源180万深度伪造定位数据集,助力AI算法可解释
2025-08-18 16:48:37
全自动组装家具,斯坦福发布 IKEA Video Manuals 数据集
2024-12-03 11:14:31
Stable Diffusion 3开源秒翻车,画人好掉san
2024-06-13 19:30:09
谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
2025-02-13 18:12:26
香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈
2025-02-21 17:59:53
中文互联网语料 AI 资源平台发布:27 个数据集、总量 2.7T
2025-01-11 08:32:27
27、42、73,DeepSeek这些大模型竟都喜欢这些数
2025-06-19 15:53:04
人形机器人量产落地关键!“天才少年”开源百万真机数据集 动作捕捉或迎广阔增量空间
2024-12-31 08:39:31
空间智能新进展:教机器人组装宜家家具,首次实现操作步骤与真实视频对齐 | NeurIPS
2024-11-26 21:39:56
傅利叶开源全尺寸人形机器人数据集,首批上线超3万条真机数据
2025-03-17 12:36:41
24小时热文
更多
扫一扫体验小程序