音频模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Mistral发布其首个开源AI音频模型Voxtral

7月15日，欧洲最大AI初创公司Mistral发布其首个开源AI音频模型系列Voxtral。该模型专为企业设计，可转录最长30分钟、理解最长40分钟的音频内容，并支持多语言处理，包括英语、西班牙语、法语、葡萄牙语、印地语等8种语言。用户可通过Voxtral对音频内容提问、生成摘要，甚至将语音命令转换为实时操作，如调用API或运行函数。这一创新工具为跨语言音频处理和企业应用提供了全新解决方案，彰显AI技术的多样化潜力。

原文链接

阿达旻

07-16 07:57:55

Mistral

Voxtral

音频模型

分享至

打开微信扫一扫

内容投诉

生成图片

速度最快：Stable Audio Open Small 端侧音频模型登场，手机上 8 秒内 AI 生成 11 秒音频

5月14日，AI初创公司Stability AI推出Stable Audio Open Small，号称是目前市场上速度最快的端侧音频生成AI模型，可在智能手机上运行。相比Suno和Udio等应用，该模型无需依赖云端，能在8秒内生成最长11秒的音频片段，适合快速制作音效。Stability AI与Arm合作优化，使其能在智能手机离线运行。训练数据来自Free Music Archive和Freesound免版税库，避免了版权争议。不过，该模型目前仅支持英文提示，且生成的音乐类型表现差异较大，尤其缺乏逼真歌声或高质量歌曲。使用条款规定，年收入低于100万美元的用户可免费使用，超出者需购买企业许可证。

原文链接

DreamCoder

05-16 14:19:16

AI音频模型

Stable Audio Open Small

智能手机

分享至

打开微信扫一扫

内容投诉

生成图片

火爆全球的AI音频大模型，最新技术细节揭秘

近日，AI音频领域再掀波澜，Stability AI在其官网宣布在Arxiv上分享了关于其开源文本转音频模型Stable Audio Open的最新研究论文。这一模型自6月推出以来，以其免费、开源的特性迅速受到广泛关注，尤其能生成长达47秒、44.1kHz高质量立体声音频，且能在消费级GPU上运行，...

原文链接

数码游侠

07-24 20:41:58

Stable Audio Open

开源文本转音频模型

版权保护

分享至

打开微信扫一扫

内容投诉

生成图片

抢先OpenAI发布Her，马斯克围观的端到端实时音频模型，前FAIR团队创业打造

法国创业团队Kyutai，由前FAIR团队成员创立，于近期抢先发布实时音频模型Moshi，马斯克亲自围观。Moshi是一款端到端的、能表达70种情绪和风格的AI，支持700ms内响应，能进行语音合成并引发互动，如模仿不同口音和讲故事。模型开源且免费，旨在提供低延迟的用户体验。尽管存在一些小问题，如在Mac上偶现错误，但Moshi展示了强大的潜力。OpenAI的ChatGPT语音助手则因安全原因推迟发布，预计还需一个月。网友们已经开始试用Moshi，引发热烈讨论。

原文链接