语音识别模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

豆包语音识别模型2.0上线

12月5日，火山引擎发布豆包语音识别模型2.0（Doubao-Seed-ASR-2.0）。新模型推理能力显著提升，上下文关键词召回率提高20%，通过深度理解上下文实现更精准的语音识别。新增多模态视觉识别功能，支持单图和多图输入，进一步提升文字识别准确性。此外，该模型支持13种海外语种，包括日语、韩语、德语和法语等，满足国际化需求。此次升级为语音识别技术带来全新突破，助力多场景应用发展。

原文链接

WisdomTrail

12-05 16:45:45

多模态视觉识别

海外语种识别

豆包语音识别模型

分享至

打开微信扫一扫

内容投诉

生成图片

豆包语音识别模型 2.0 上线：不仅“听懂字”还能“看懂图”，支持日韩德法等 13 种外语

12月5日，火山引擎发布豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），新增多模态视觉识别功能，支持“听懂字”和“看懂图”，大幅提升文字与场景识别精准度。模型优化了上下文推理能力，关键词召回率提升20%，并支持日语、韩语、德语、法语等13种外语识别。通过深度理解上下文及图像辅助，可精准判断易混淆词汇，如搜拍场景中的“滑鸡”与“滑稽”。此外，模型基于PPO强化学习方案，无需依赖历史记录即可泛化理解动态交互场景，适用于图片创作和跨语言交流。目前，该模型已上线火山方舟体验中心，并对外提供API服务。

原文链接

WisdomTrail

12-05 16:43:33

13种外语支持

多模态视觉识别

豆包语音识别模型

分享至

打开微信扫一扫

内容投诉

生成图片

联发科推出专为中国台湾地区用语及口音设计的开源 AI 语音识别模型

2025年7月1日，联发科旗下前瞻技术研究单位联发创新基地发布专为中国台湾地区用语及口音优化的AI语音识别模型MR BreezeASR 25。该模型基于OpenAI Whisper优化，在识别台湾地区用语时更准确，例如不会将‘发生什么事’误听为‘花生什么事’，同时在中英混合语境下的识别精度提升56%。相较原版Whisper，MR BreezeASR 25整体精度提升近10%。该模型已开源，采用Apache 2.0许可，适用于各类AI应用场景，有助于推动繁体中文AI应用的发展。

原文链接