Meta近日开源了一款名为Spirit LM的7B参数规模的多模态语言模型,能够同时处理语音和文本数据,不仅支持语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。这款模型通过交错使用文本和语音数据进行训练,使得模型能在两种模式间自由转换。与现有模型相比,Spirit LM在处理多种模态数据和任务时具有更强的泛化能力。该模型有两个版本:基础版和表达版。表达版额外引入音高和风格token,使其在生成语音时能更丰富地表达情感。实验结果显示,Spirit LM在自动语音识别和文本转语音任务中表现出色,尤其是在少量样本的情况下也能跨模态学习新任务。不过,该模型也可能生成不安全的内容,需要额外的安全测试。Meta开源该项目旨在推动语音和文本结合的语言模型的发展。
原文链接
本文链接:https://kx.umi6.com/article/9136.html
转载请注明文章出处
相关推荐
换一换
从Figma到中国垂类应用全球崛起
2025-08-01 14:01:49
智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源,API 降价 50%
2025-12-08 20:45:30
Nano Banana爆火背后,深聊谷歌多模态五大主线布局
2025-09-10 15:36:58
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
2025-07-30 15:46:31
独家|智元机器人:正与阶跃星辰合作 将多模态能力赋能至机器人
2025-03-10 12:37:14
面壁智能发布 MiniCPM-o 2.6 全模态模型,号称“端侧 GPT-4o”
2025-01-16 19:00:56
微软 Phi-4 多模态及迷你模型上线,语音视觉文本全能
2025-02-27 10:13:59
字节把GPT-4o级图像生成能力开源了!
2025-05-24 16:24:01
Meta 发布 Multi-SpatialMLLM:多模态 AI 突破空间理解瓶颈
2025-05-29 14:33:07
中国AI凭什么逆袭美国?
2025-06-26 13:58:23
截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注
2025-03-13 15:23:45
全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑
2025-01-16 18:59:50
百度发布文心大模型 4.5 Turbo / X1 Turbo:主打多模态、强推理、低成本
2025-04-25 11:06:03
617 文章
412197 浏览
24小时热文
更多
-
2026-01-23 12:56:24 -
2026-01-23 11:53:08 -
2026-01-23 11:52:03