清华大学生数科技:AudioLBM引领音频超分新范式
音频超分辨率(Audio Super-Resolution, Audio SR)是从低采样率音频恢复高采样率版本的技术,能够显著提升语音清晰度、音乐细节和沉浸式音频体验。然而,由于高频信息在低采样率信号中损失严重,这一任务一直是音频生成领域的核心难题。
近期,OpenAI的Sora 2模型实现了高达96 kHz的高保真音频生成,而现有学术界模型大多局限于48 kHz。在此背景下,清华大学与生数科技团队在ICASSP 2025和NeurIPS 2025会议上分别推出了两项成果:轻量化语音波形超分模型Bridge-SR,以及支持192 kHz母带级音频的多功能超分框架AudioLBM。
Bridge-SR首次将薛定谔桥模型引入语音超分任务,采用“数据到数据”生成范式,直接利用低分辨率波形作为先验,在仅1.7M参数的轻量化网络下实现高效高保真语音超分,性能优于多项主流方法。其创新设计包括非对称噪声调度、频域辅助监督和一阶PF-ODE采样。
基于Bridge-SR,团队进一步提出AudioLBM,探索从“波形域生成”到“隐空间建模”的转变,首次在波形连续隐空间中构建低分辨率到高分辨率的隐变量桥接生成过程。通过变分自编码器(VAE)压缩波形为隐空间表征,结合频率感知机制和级联桥类模型,AudioLBM成功突破96 kHz和192 kHz工业级采样率限制,实现了任意采样率到任意采样率(any-to-any)的超分能力。
实验表明,AudioLBM在跨语音、音效与音乐的多域评测中取得新的SOTA表现,尤其在Any-to-48 kHz任务上显著超越基线模型,并在96 kHz与192 kHz任务中保持稳定性能。团队还通过消融实验验证了波形隐空间在通用音频超分中的最佳效果。
两项目的第一作者分别为李畅和陈泽华。李畅是中国科学技术大学少年班本科生,专注于语音与音频生成建模;陈泽华是清华大学博士后,研究方向为概率生成模型及其应用。
【Bridge-SR】
论文地址:https://arxiv.org/pdf/2501.07897
样本展示:https://bridge-sr.github.io/
【AudioLBM】
论文地址:https://arxiv.org/pdf/2509.17609
样本展示:https://audiolbm.github.io/
.png)

-
2025-10-13 14:58:08
-
2025-10-13 14:57:41
-
2025-10-13 13:57:36