Meta近日开源了一款名为Spirit LM的7B参数规模的多模态语言模型,能够同时处理语音和文本数据,不仅支持语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。这款模型通过交错使用文本和语音数据进行训练,使得模型能在两种模式间自由转换。与现有模型相比,Spirit LM在处理多种模态数据和任务时具有更强的泛化能力。该模型有两个版本:基础版和表达版。表达版额外引入音高和风格token,使其在生成语音时能更丰富地表达情感。实验结果显示,Spirit LM在自动语音识别和文本转语音任务中表现出色,尤其是在少量样本的情况下也能跨模态学习新任务。不过,该模型也可能生成不安全的内容,需要额外的安全测试。Meta开源该项目旨在推动语音和文本结合的语言模型的发展。
原文链接
本文链接:https://kx.umi6.com/article/9136.html
转载请注明文章出处
相关推荐
换一换
大模型呼唤开源多模态 AI加速冲刺物理世界
2025-06-07 14:50:49
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
2025-03-20 16:36:06
GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%
2025-08-15 16:18:18
截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注
2025-03-13 15:23:45
美团新独立APP,点不了菜只能点AI
2025-11-03 12:17:52
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
Llama 4发布:我看到了DeepSeek的影子
2025-04-06 16:06:56
豆包大模型1.6正式发布
2025-06-11 11:12:11
GPT-5信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
2025-08-07 18:55:45
多模态和Agent成为大厂AI的新赛点
2025-04-30 20:07:29
Agent、多模态、应用、算力一天看尽,峰会亮点在此|5.20日,来现场一起AI
2026-05-17 17:46:55
摸DeepSeek过河也得自身硬! 想开后的文小言,真香!
2025-03-31 17:40:22
709 文章
637800 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13