1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
阶跃星辰:旗下开源语音模型 Step-Audio-R1.1 在全球权威评测中登顶
1月15日,阶跃星辰宣布其开源语音模型Step-Audio-R1.1在全球权威评测榜单Artificial Analysis Speech Reasoning中登顶榜首。该榜单专注于评估原生语音模型的复杂逻辑推理能力,核心指标包括准确率和首包延迟等。Step-Audio-R1.1以96.4%的准确率超越Grok、Gemini、GPT-Realtime等主流模型,刷新历史最佳成绩,并在性能与速度上全面领先。作为全球首个开源原生语音推理模型,Step-Audio-R1系列具备深度语音推理、实时响应和音频领域可扩展CoT等核心能力。最新版本R1.1进一步提升实时对话与复杂推理能力,完整实时语音API预计2月上线,目前chat模式已支持流式推理功能。
数码游侠
01-15 15:42:50
Step-Audio-R1.1
语音模型
阶跃星辰
分享至
打开微信扫一扫
内容投诉
生成图片
阶跃星辰语音模型登顶全球第一
1月15日,据财联社报道,阶跃星辰的原生语音推理模型Step-Audio-R1.1在大模型评测榜单Artificial Analysis Speech Reasoning中荣登全球第一。该榜单是评估“原生语音模型”的权威第三方基准之一,重点考察模型直接处理音频并完成复杂逻辑推理的能力,核心指标包括准确率和首包延迟等。此次登顶标志着阶跃星辰在语音模型领域的技术突破,进一步巩固了其在全球人工智能行业的领先地位。
AI幻想空间站
01-15 10:31:06
登顶榜首
语音模型
阶跃星辰
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义百聆推出语音模型新版本:3 秒录音即可“复制”9 种语言、18 种方言
12月15日,阿里通义发布两款‘百聆’语音模型升级版并开源。Fun-CosyVoice3支持3秒录音即可克隆音色,切换9种语言、18种方言及多种情感,首包延迟降低50%,中英混说准确率提升显著。Fun-ASR增强噪声场景识别率达93%,支持31种语言自由混说与歌词识别。两模型均支持本地部署与二次开发,适用于语音助手、直播配音等实时场景。开源地址已公布,供开发者体验与定制化微调。
未来笔触
12-15 16:47:57
多语言支持
语音模型
音色克隆
分享至
打开微信扫一扫
内容投诉
生成图片
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
2025年10月,火山引擎升级了豆包语音大模型,推出语音合成模型2.0与声音复刻模型2.0。新模型通过深度语义理解与上下文推理能力,使AI语音从“像人”走向“懂人”,支持情感表达、方言、语气等多样化控制。例如,郭德纲和于谦的腔调被复刻演绎“发疯文学”。此外,新架构还解决了复杂公式朗读难题,准确率达90%。同时,豆包大模型1.6新增分档调节思考长度功能,并推出轻量化版本及智能模型路由技术,显著降低企业使用成本。目前,该技术已在小米、懂车帝等企业落地应用,日均tokens调用量超过30万亿,占据中国公有云市场半壁江山。
虚拟微光
10-16 14:53:40
AI语音合成
发疯文学
豆包语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI推出小型语音模型GPT-5 Pro
10月7日,OpenAI首席执行官奥尔特曼宣布推出GPT-5 Pro模型,并同步发布轻量化语音模型GPT-realtime-mini。这一举措表明语音将成为未来人机交互的重要方式,彰显了OpenAI在多模态交互领域的战略布局。新模型将助力开发者更高效地集成语音功能,进一步提升用户体验。
电子诗篇
10-07 03:44:27
GPT-5 Pro
OpenAI
语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
小米开源首个原生端到端语音大模型
9月19日,小米正式开源首个原生端到端语音模型Xiaomi-MiMo-Audio。该模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,并观察到明显的“涌现”行为。在多项标准评测中,MiMo-Audio表现优异:在音频理解基准MMAU测试集中超越Google闭源模型Gemini-2.5-Flash;在Big Bench Audio S2T任务中超越OpenAI的GPT-4o-Audio-Preview,同时在通用语音理解和对话等任务中取得7B参数量最佳性能,大幅领先同级别开源模型。
智能视野
09-19 10:10:03
小米
开源
语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
阶跃星辰发布端到端语音大模型 Step-Audio 2 mini,多个基准测试取得 SOTA 成绩
2025年9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成,支持语音原生Tool Calling能力,可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio,在音频理解、语音识别、翻译和对话场景中表现突出。例如,在中英互译任务上,其CoVoST 2和CVSS评分分别达39.3和29.1;语音识别任务中,中文CER为3.19,英语WER为3.50,领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强,Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题,现已上线阶跃星辰开放平台并开源。
代码编织者Nexus
09-01 15:21:09
SOTA
Step-Audio 2 mini
端到端语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
突发!微软与OpenAI同日开火:语音之战+通用大模型,AI霸权决战打响
2025年8月30日,微软发布两款自研AI大模型:语音模型MAI-Voice-1和通用模型MAI-1-preview。MAI-Voice-1以单GPU生成1分钟音频的速度和丰富表现力引发关注,支持多种情绪与场景;MAI-1-preview是微软首个端到端训练的MoE架构模型,性能与效率兼具。微软AI掌门人Mustafa Suleyman表示,此举标志着微软在AI领域掌握更多主动权,未来将通过‘编排器’技术优化模型调度能力。此前,微软长期依赖OpenAI模型,但近期双方关系趋紧,微软已将OpenAI列入竞争对手名单。同日,OpenAI也发布语音模型GPT-Realtime,显示出语音助手领域的激烈竞争。微软强调将继续使用OpenAI与开源模型,但自主研发成为其战略核心。
LunarCoder
08-30 11:49:23
OpenAI
微软
语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI发布GPT-realtime语音对话模型
当地时间周四,OpenAI发布全新语音模型GPT-realtime,专用于语音AI Agent。该模型生成自然流畅语音,可模仿人类语调、情感及语速,支持图像理解并与语音或文本对话结合,适用于客服、教育、金融、医疗等领域。新增Marin与Cedar两种特色语音,并全面升级原有8种语音,进一步提升用户体验。
GhostPilot
08-29 08:37:51
gpt-realtime
OpenAI
语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
MiniMax登顶、多家创企融资,AI语音离「现实场景」还有多远?
4月12日,MiniMax推出最新语音生成模型Speech-02,其升级版Speech-02-HD于5月15日登顶两大榜单,技术指标领先竞品。近期,多家AI语音创企获融资,如Cartesia获6400万美元融资,Hume AI获5000万美元融资,同时Amazon、Google等大厂也在布局相关技术。为评估当前AI语音在实际场景中的表现,测试选择了直播带货、语音陪伴、有声书三个场景,MiniMax、DubbingX等五款模型参与测试。结果显示,DubbingX在中文有声书场景中表现突出,尤其在复合情感表达上优于其他产品,而ElevenLabs和Sesame在英文场景中表现欠佳。尽管部分模型在情感传达上有所进步,但在复杂场景中仍需更多工程优化。AI语音在toB领域的应用已较广泛,但在toC场景中仍面临挑战,未来技术发展值得期待。
像素宇宙
06-06 12:28:01
AI语音
应用场景
语音模型
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序