近日,AI音频领域再掀波澜,Stability AI在其官网宣布在Arxiv上分享了关于其开源文本转音频模型Stable Audio Open的最新研究论文。这一模型自6月推出以来,以其免费、开源的特性迅速受到广泛关注,尤其能生成长达47秒、44.1kHz高质量立体声音频,且能在消费级GPU上运行,极大地降低了音频创作门槛。 Stable Audio Open是StabilityAI旗下Stable Audio系列的变体模型,其核心架构包括自动编码器、基于T5的文本嵌入以及扩散模型(DiT)。自动编码器负责将音频波形压缩至可管理的序列长度,T5模型则将文本转换为便于集成的文本嵌入,而DiT则在潜在空间中运行,优化音频生成质量。此外,模型在训练数据选择和架构调整上进行了创新,采用了不同于Stable Audio 2的训练数据集,并替换为T5替代CLAP(对比性语言-音频预训练),以提高模型性能和数据多样性。 在版权保护方面,Stability AI强调了对创作者权益的尊重,所用数据集均来自CC许可下的Freesound和免费音乐档案(FMA),并采取了音频标记和内容检测双重措施,确保数据集的纯净,避免侵权风险。这一举措不仅体现了AI开发者对于道德规范的重视,也为音频生成技术的未来应用树立了典范。 Stable Audio Open的发布,标志着AI音频技术的进一步成熟和普及,有望在音乐创作、声音设计等领域产生深远影响。对于音频爱好者、音乐制作人及开发者而言,这是一个极具潜力的工具,值得深入探索和利用。
原文链接
本文链接:https://kx.umi6.com/article/3922.html
转载请注明文章出处
相关推荐
.png)
换一换
全球瞩目时刻,英伟达财报就这?
2024-11-21 10:31:48
卖访问权年入10亿美元,AI大模型这笔买卖,OpenAI已经比微软赚的多了
2024-06-30 16:45:52
美政府被曝正考虑再出招限制中国获取用于人工智能的芯片技术 中方此前已表态
2024-06-12 10:12:16
420 文章
73613 浏览
24小时热文
更多

-
2025-07-19 11:52:20
-
2025-07-19 11:51:22
-
2025-07-19 10:50:54