2025年9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成,支持语音原生Tool Calling能力,可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio,在音频理解、语音识别、翻译和对话场景中表现突出。例如,在中英互译任务上,其CoVoST 2和CVSS评分分别达39.3和29.1;语音识别任务中,中文CER为3.19,英语WER为3.50,领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强,Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题,现已上线阶跃星辰开放平台并开源。
原文链接
本文链接:https://kx.umi6.com/article/24532.html
转载请注明文章出处
相关推荐
.png)
换一换
月之暗面发布 Kimi k1.5 多模态思考模型,实现 SOTA 级多模态推理能力
2025-01-20 23:25:35
月之暗面发布k1.5多模态思考模型
2025-01-20 23:27:40
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
2025-06-14 20:40:35
开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA
2025-07-26 13:39:05
阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini
2025-09-01 12:18:45
悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%
2024-06-18 15:31:25
多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
2024-08-22 17:19:58
4090玩转大场景几何重建,RGB渲染和几何精度达SOTA|上海AI Lab&西工大新研究
2025-04-13 19:51:00
杨植麟被梁文锋叫醒了!Kimi新模型发布即开源,1T参数全线SOTA
2025-07-12 13:50:53
按需搭配一键叠穿,效果拿下新SOTA!中山大学&字节智创数字人团队提出虚拟试穿新框架
2024-07-02 14:50:22
消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面,研发类 GPT-4o 端到端语音模型
2024-10-23 08:28:28
Claude Opus 4.1火速发布!坐稳编程之王,官方:马上还有大更新
2025-08-06 11:26:58
GPT-4o攻破ARC-AGI无法被挑战的神话,71%准确率成新SOTA
2024-06-20 14:13:43
569 文章
299928 浏览
24小时热文
更多

-
2025-10-24 01:20:07
-
2025-10-24 00:18:56
-
2025-10-23 21:15:29