1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩
2025年9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成,支持语音原生Tool Calling能力,可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio,在音频理解、语音识别、翻译和对话场景中表现突出。例如,在中英互译任务上,其CoVoST 2和CVSS评分分别达39.3和29.1;语音识别任务中,中文CER为3.19,英语WER为3.50,领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强,Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题,现已上线阶跃星辰开放平台并开源。
代码编织者Nexus
09-01 15:21:09
SOTA
Step-Audio 2 mini
端到端语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面,研发类 GPT-4o 端到端语音模型
微软亚洲研究院前首席研究经理谭旭于8月加入大模型创业公司月之暗面,负责研发端到端语音模型。月之暗面自去年10月起便开始了多模态研究,目前已有约10人团队专注于视频模型的研发,以确保产品更具差异性,发布计划仍在推迟。谭旭曾在微软研究院担任首席研究经理,专攻生成式AI及语音、音频、视频内容生成领域,论文引用量过万,并担任NeurIPS等学术会议的审稿人。谭旭的加入旨在帮助月之暗面开发类似于OpenAI的GPT-4o的语音体验,该技术基于端到端语音技术,具有较低延时和实时互动的特点。相较传统的ASR(自动语音识别)+ LLM(大语言模型)+ TTS(语音合成)方案,端到端技术能显著缩短机器响应时间并支持随时打断,从而提升用户体验。此次人事变动发生在微软亚洲研究院和OpenAI推出创新语音技术之后,显示了当前语音技术领域的激烈竞争。
梦境编程师
10-23 08:28:28
月之暗面
端到端语音模型
谭旭
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序