Meta近日开源了一款名为Spirit LM的7B参数规模的多模态语言模型,能够同时处理语音和文本数据,不仅支持语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。这款模型通过交错使用文本和语音数据进行训练,使得模型能在两种模式间自由转换。与现有模型相比,Spirit LM在处理多种模态数据和任务时具有更强的泛化能力。该模型有两个版本:基础版和表达版。表达版额外引入音高和风格token,使其在生成语音时能更丰富地表达情感。实验结果显示,Spirit LM在自动语音识别和文本转语音任务中表现出色,尤其是在少量样本的情况下也能跨模态学习新任务。不过,该模型也可能生成不安全的内容,需要额外的安全测试。Meta开源该项目旨在推动语音和文本结合的语言模型的发展。
原文链接
本文链接:https://kx.umi6.com/article/9136.html
转载请注明文章出处
相关推荐
换一换
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
2025-08-01 09:07:26
6天连发6模型,阶跃稳稳蝉联多模态卷王
2025-01-22 12:56:12
「AI掉队者联盟」谋求改命
2025-06-11 16:13:17
面壁智能发布 MiniCPM-o 2.6 全模态模型,号称“端侧 GPT-4o”
2025-01-16 19:00:56
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超Nano Banana
2025-10-31 10:25:44
这款应用爆火背后,AI下半场正从「聊天」变「办事」
2025-11-27 16:49:01
最强开源大模型除夕登场!397B参数千问3.5超越Gemini 3,百万Tokens低至8毛
2026-02-16 19:34:51
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
Meta发布最强开源Llama 4,超越DeepSeek V3
2025-04-06 10:58:02
大模型呼唤开源多模态 AI加速冲刺物理世界
2025-06-07 14:50:49
腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
2025-05-16 17:13:07
财跃星辰CTO白祚:推理模型将快速迭代到Agent模型
2025-02-23 19:04:12
多模态和Agent成为大厂AI的新赛点
2025-04-30 20:07:29
672 文章
548045 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17