1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Meta近日开源了一款名为Spirit LM的7B参数规模的多模态语言模型,能够同时处理语音和文本数据,不仅支持语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。这款模型通过交错使用文本和语音数据进行训练,使得模型能在两种模式间自由转换。与现有模型相比,Spirit LM在处理多种模态数据和任务时具有更强的泛化能力。该模型有两个版本:基础版和表达版。表达版额外引入音高和风格token,使其在生成语音时能更丰富地表达情感。实验结果显示,Spirit LM在自动语音识别和文本转语音任务中表现出色,尤其是在少量样本的情况下也能跨模态学习新任务。不过,该模型也可能生成不安全的内容,需要额外的安全测试。Meta开源该项目旨在推动语音和文本结合的语言模型的发展。

原文链接
本文链接:https://kx.umi6.com/article/9136.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
2025-07-30 15:46:31
中国AI凭什么逆袭美国?
2025-06-26 13:58:23
多模态和Agent成为大厂AI的新赛点
2025-04-30 20:07:29
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
2025-07-28 10:09:36
谷歌狙击OpenAI 集中火力猛攻AI智能体
2024-12-12 10:56:14
视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊
2025-11-28 17:39:28
腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
2025-05-16 17:13:07
实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工
2025-05-30 15:54:58
4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬
2025-06-06 22:39:37
祖母的讣告能用Deepseek代写吗?
2025-03-05 14:06:59
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
2025-08-01 09:07:26
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
2025-04-06 10:54:42
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
2025-04-28 12:48:54
24小时热文
更多
扫一扫体验小程序