近日,AI音频领域再掀波澜,Stability AI在其官网宣布在Arxiv上分享了关于其开源文本转音频模型Stable Audio Open的最新研究论文。这一模型自6月推出以来,以其免费、开源的特性迅速受到广泛关注,尤其能生成长达47秒、44.1kHz高质量立体声音频,且能在消费级GPU上运行,极大地降低了音频创作门槛。 Stable Audio Open是StabilityAI旗下Stable Audio系列的变体模型,其核心架构包括自动编码器、基于T5的文本嵌入以及扩散模型(DiT)。自动编码器负责将音频波形压缩至可管理的序列长度,T5模型则将文本转换为便于集成的文本嵌入,而DiT则在潜在空间中运行,优化音频生成质量。此外,模型在训练数据选择和架构调整上进行了创新,采用了不同于Stable Audio 2的训练数据集,并替换为T5替代CLAP(对比性语言-音频预训练),以提高模型性能和数据多样性。 在版权保护方面,Stability AI强调了对创作者权益的尊重,所用数据集均来自CC许可下的Freesound和免费音乐档案(FMA),并采取了音频标记和内容检测双重措施,确保数据集的纯净,避免侵权风险。这一举措不仅体现了AI开发者对于道德规范的重视,也为音频生成技术的未来应用树立了典范。 Stable Audio Open的发布,标志着AI音频技术的进一步成熟和普及,有望在音乐创作、声音设计等领域产生深远影响。对于音频爱好者、音乐制作人及开发者而言,这是一个极具潜力的工具,值得深入探索和利用。
原文链接
本文链接:https://kx.umi6.com/article/3922.html
转载请注明文章出处
相关推荐
.png)
换一换
又有AI公司遭起诉 新闻集团旗下媒体指控Perplexity盗用内容训练大模型
2024-10-22 19:20:32
AI会革了网文作者的“命”吗?
2024-07-19 12:44:39
Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等
2024-06-06 15:01:19
AIGC作品算“作品”吗?360回应大模型开发者十倍价格“维权”
2024-06-12 13:54:02
AI时代的数字版权治理
2025-05-28 21:28:24
火爆全球的AI音频大模型,最新技术细节揭秘
2024-07-24 20:41:58
Token进入『厘时代』,AI侵权潮起,Shein等巨头何解?
2024-10-23 11:32:11
美国法院判决:无人工参与的 AI 创作作品不能获得版权保护
2025-03-19 18:43:47
AIGC业务动作频频 阜博集团早盘一度涨超9%
2025-02-24 14:34:42
国家版权局:健全区块链、大数据、云计算、人工智能等新兴领域、新兴业态版权保护制度
2025-07-23 16:56:12
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
2025-09-06 12:37:03
港股机器人概念走强 行业商业化加速引发资本加注
2025-09-05 15:23:54
9.16-9.17来腾讯全球数字生态大会,与行业大咖「智者见智」共话AI增益新机
2025-09-04 20:06:13
480 文章
178303 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24