综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)。新模型推理能力显著提升,上下文关键词召回率提高20%,通过深度理解上下文实现更精准的语音识别。新增多模态视觉识别功能,支持单图和多图输入,进一步提升文字识别准确性。此外,该模型支持13种海外语种,包括日语、韩语、德语和法语等,满足国际化需求。此次升级为语音识别技术带来全新突破,助力多场景应用发展。
原文链接
12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),新增多模态视觉识别功能,支持“听懂字”和“看懂图”,大幅提升文字与场景识别精准度。模型优化了上下文推理能力,关键词召回率提升20%,并支持日语、韩语、德语、法语等13种外语识别。通过深度理解上下文及图像辅助,可精准判断易混淆词汇,如搜拍场景中的“滑鸡”与“滑稽”。此外,模型基于PPO强化学习方案,无需依赖历史记录即可泛化理解动态交互场景,适用于图片创作和跨语言交流。目前,该模型已上线火山方舟体验中心,并对外提供API服务。
原文链接
2025年7月1日,联发科旗下前瞻技术研究单位联发创新基地发布专为中国台湾地区用语及口音优化的AI语音识别模型MR BreezeASR 25。该模型基于OpenAI Whisper优化,在识别台湾地区用语时更准确,例如不会将‘发生什么事’误听为‘花生什么事’,同时在中英混合语境下的识别精度提升56%。相较原版Whisper,MR BreezeASR 25整体精度提升近10%。该模型已开源,采用Apache 2.0许可,适用于各类AI应用场景,有助于推动繁体中文AI应用的发展。
原文链接
加载更多
暂无内容