近日,AI音频领域再掀波澜,Stability AI在其官网宣布在Arxiv上分享了关于其开源文本转音频模型Stable Audio Open的最新研究论文。这一模型自6月推出以来,以其免费、开源的特性迅速受到广泛关注,尤其能生成长达47秒、44.1kHz高质量立体声音频,且能在消费级GPU上运行,极大地降低了音频创作门槛。 Stable Audio Open是StabilityAI旗下Stable Audio系列的变体模型,其核心架构包括自动编码器、基于T5的文本嵌入以及扩散模型(DiT)。自动编码器负责将音频波形压缩至可管理的序列长度,T5模型则将文本转换为便于集成的文本嵌入,而DiT则在潜在空间中运行,优化音频生成质量。此外,模型在训练数据选择和架构调整上进行了创新,采用了不同于Stable Audio 2的训练数据集,并替换为T5替代CLAP(对比性语言-音频预训练),以提高模型性能和数据多样性。 在版权保护方面,Stability AI强调了对创作者权益的尊重,所用数据集均来自CC许可下的Freesound和免费音乐档案(FMA),并采取了音频标记和内容检测双重措施,确保数据集的纯净,避免侵权风险。这一举措不仅体现了AI开发者对于道德规范的重视,也为音频生成技术的未来应用树立了典范。 Stable Audio Open的发布,标志着AI音频技术的进一步成熟和普及,有望在音乐创作、声音设计等领域产生深远影响。对于音频爱好者、音乐制作人及开发者而言,这是一个极具潜力的工具,值得深入探索和利用。
原文链接
本文链接:https://kx.umi6.com/article/3922.html
转载请注明文章出处
相关推荐
换一换
又有AI公司遭起诉 新闻集团旗下媒体指控Perplexity盗用内容训练大模型
2024-10-22 19:20:32
Token进入『厘时代』,AI侵权潮起,Shein等巨头何解?
2024-10-23 11:32:11
火爆全球的AI音频大模型,最新技术细节揭秘
2024-07-24 20:41:58
AIGC业务动作频频 阜博集团早盘一度涨超9%
2025-02-24 14:34:42
AI会革了网文作者的“命”吗?
2024-07-19 12:44:39
AI时代的数字版权治理
2025-05-28 21:28:24
国家版权局:健全区块链、大数据、云计算、人工智能等新兴领域、新兴业态版权保护制度
2025-07-23 16:56:12
AIGC作品算“作品”吗?360回应大模型开发者十倍价格“维权”
2024-06-12 13:54:02
美国法院判决:无人工参与的 AI 创作作品不能获得版权保护
2025-03-19 18:43:47
Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等
2024-06-06 15:01:19
自动驾驶,走出青春期
2025-10-23 15:09:02
被动元件大厂国巨旗下基美钽电容涨价:为年内第二次 涨幅20%-30%
2025-10-24 10:35:50
智元「灵创」平台来了!0 代码、0 门槛,人人都是机器人训练大师
2025-10-24 17:46:58
528 文章
261847 浏览
24小时热文
更多
-
2025-10-25 10:17:38 -
2025-10-25 08:14:19 -
2025-10-24 22:57:14