1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

清华大学生数科技:AudioLBM引领音频超分新范式

音频超分辨率(Audio Super-Resolution, Audio SR)是从低采样率音频恢复高采样率版本的技术,能够显著提升语音清晰度、音乐细节和沉浸式音频体验。然而,由于高频信息在低采样率信号中损失严重,这一任务一直是音频生成领域的核心难题。

近期,OpenAI的Sora 2模型实现了高达96 kHz的高保真音频生成,而现有学术界模型大多局限于48 kHz。在此背景下,清华大学与生数科技团队在ICASSP 2025和NeurIPS 2025会议上分别推出了两项成果:轻量化语音波形超分模型Bridge-SR,以及支持192 kHz母带级音频的多功能超分框架AudioLBM。

Bridge-SR首次将薛定谔桥模型引入语音超分任务,采用“数据到数据”生成范式,直接利用低分辨率波形作为先验,在仅1.7M参数的轻量化网络下实现高效高保真语音超分,性能优于多项主流方法。其创新设计包括非对称噪声调度、频域辅助监督和一阶PF-ODE采样。

基于Bridge-SR,团队进一步提出AudioLBM,探索从“波形域生成”到“隐空间建模”的转变,首次在波形连续隐空间中构建低分辨率到高分辨率的隐变量桥接生成过程。通过变分自编码器(VAE)压缩波形为隐空间表征,结合频率感知机制和级联桥类模型,AudioLBM成功突破96 kHz和192 kHz工业级采样率限制,实现了任意采样率到任意采样率(any-to-any)的超分能力。

实验表明,AudioLBM在跨语音、音效与音乐的多域评测中取得新的SOTA表现,尤其在Any-to-48 kHz任务上显著超越基线模型,并在96 kHz与192 kHz任务中保持稳定性能。团队还通过消融实验验证了波形隐空间在通用音频超分中的最佳效果。

两项目的第一作者分别为李畅和陈泽华。李畅是中国科学技术大学少年班本科生,专注于语音与音频生成建模;陈泽华是清华大学博士后,研究方向为概率生成模型及其应用。

【Bridge-SR】
论文地址:https://arxiv.org/pdf/2501.07897
样本展示:https://bridge-sr.github.io/

【AudioLBM】
论文地址:https://arxiv.org/pdf/2509.17609
样本展示:https://audiolbm.github.io/

原文链接
本文链接:https://kx.umi6.com/article/26507.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式
2025-10-12 12:44:22
德国电信发布 AI-phone Pro 手机:集成 Perplexity AI 助手,骁龙 6 Gen 3
2025-10-11 14:30:14
刚得诺奖的成果被做成芯片了
2025-10-13 13:57:36
对标Sora 2还免费的国产AI,到底啥水平?
2025-10-13 08:53:26
DC 漫画总裁吉姆・李承诺:只要自己还在任上,公司就绝不支持生成式 AI
2025-10-11 17:32:36
谷歌云 CEO 托马斯・库里安:我不相信 AI 会让所有人的工作都自动化
2025-10-11 13:28:06
“人工智能+”行动深入实施 业界加速推进智能体落地
2025-10-13 01:49:20
工信部等七部门:加强新型信息基础设施建设 按需布局算力基础设施 加速算力与行业融合应用
2025-10-11 17:33:44
李飞飞发起机器人家务挑战赛!老黄第一时间批钱赞助
2025-10-11 10:49:18
全网最后一批躺赚博主,也被Al挤兑失业了
2025-10-12 08:40:41
苹果截胡马斯克抢到AI 人才,想给HomePod 加个“智慧眼”
2025-10-11 18:33:17
我去看NBA 中国赛,结果被阿里云AI 变成了球队“第六人”
2025-10-12 17:45:04
“O链”已然形成,英伟达也不过是其中一环
2025-10-11 13:29:17
24小时热文
更多
扫一扫体验小程序