1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成,支持语音原生Tool Calling能力,可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio,在音频理解、语音识别、翻译和对话场景中表现突出。例如,在中英互译任务上,其CoVoST 2和CVSS评分分别达39.3和29.1;语音识别任务中,中文CER为3.19,英语WER为3.50,领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强,Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题,现已上线阶跃星辰开放平台并开源。

原文链接
本文链接:https://kx.umi6.com/article/24532.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
2025-06-14 20:40:35
月之暗面发布k1.5多模态思考模型
2025-01-20 23:27:40
智元发布第二代一体化具身大小脑系统 GenieReasoner,推理能力达 SOTA
2026-01-01 18:27:20
阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩
2025-09-01 15:21:09
阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini
2025-09-01 12:18:45
姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程
2026-02-13 15:24:22
达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩
2025-02-14 12:34:39
纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源
2025-05-22 11:30:40
美团发布高效推理模型 LongCat-Flash-Thinking,达到 SOTA 水平
2025-09-22 15:58:35
按需搭配一键叠穿,效果拿下新SOTA!中山大学&字节智创数字人团队提出虚拟试穿新框架
2024-07-02 14:50:22
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA
2025-12-24 10:26:59
DeepSeek V4 Lite悄然更新:2000亿小参数性能逼近美国顶流
2026-03-03 11:57:04
消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面,研发类 GPT-4o 端到端语音模型
2024-10-23 08:28:28
24小时热文
更多
扫一扫体验小程序