豆包语音识别模型 2.0 上线：不仅“听懂字”还能“看懂图”，支持日韩德法等 13 种外语

2025-12-05 16:43:33

WisdomTrail

发布在

快讯

阅读：606

12月5日，火山引擎发布豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），新增多模态视觉识别功能，支持“听懂字”和“看懂图”，大幅提升文字与场景识别精准度。模型优化了上下文推理能力，关键词召回率提升20%，并支持日语、韩语、德语、法语等13种外语识别。通过深度理解上下文及图像辅助，可精准判断易混淆词汇，如搜拍场景中的“滑鸡”与“滑稽”。此外，模型基于PPO强化学习方案，无需依赖历史记录即可泛化理解动态交互场景，适用于图片创作和跨语言交流。目前，该模型已上线火山方舟体验中心，并对外提供API服务。

原文链接

本文链接：https://kx.umi6.com/article/29733.html

转载请注明文章出处

13种外语支持