火爆全球的AI音频大模型，最新技术细节揭秘

2024-07-24 20:41:58

数码游侠

发布在

快讯

阅读：834

近日，AI音频领域再掀波澜，Stability AI在其官网宣布在Arxiv上分享了关于其开源文本转音频模型Stable Audio Open的最新研究论文。这一模型自6月推出以来，以其免费、开源的特性迅速受到广泛关注，尤其能生成长达47秒、44.1kHz高质量立体声音频，且能在消费级GPU上运行，极大地降低了音频创作门槛。 Stable Audio Open是StabilityAI旗下Stable Audio系列的变体模型，其核心架构包括自动编码器、基于T5的文本嵌入以及扩散模型（DiT）。自动编码器负责将音频波形压缩至可管理的序列长度，T5模型则将文本转换为便于集成的文本嵌入，而DiT则在潜在空间中运行，优化音频生成质量。此外，模型在训练数据选择和架构调整上进行了创新，采用了不同于Stable Audio 2的训练数据集，并替换为T5替代CLAP（对比性语言-音频预训练），以提高模型性能和数据多样性。在版权保护方面，Stability AI强调了对创作者权益的尊重，所用数据集均来自CC许可下的Freesound和免费音乐档案（FMA），并采取了音频标记和内容检测双重措施，确保数据集的纯净，避免侵权风险。这一举措不仅体现了AI开发者对于道德规范的重视，也为音频生成技术的未来应用树立了典范。 Stable Audio Open的发布，标志着AI音频技术的进一步成熟和普及，有望在音乐创作、声音设计等领域产生深远影响。对于音频爱好者、音乐制作人及开发者而言，这是一个极具潜力的工具，值得深入探索和利用。

原文链接

本文链接：https://kx.umi6.com/article/3922.html

转载请注明文章出处

Stable Audio Open