13种外语支持 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

豆包语音识别模型 2.0 上线：不仅“听懂字”还能“看懂图”，支持日韩德法等 13 种外语

12月5日，火山引擎发布豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），新增多模态视觉识别功能，支持“听懂字”和“看懂图”，大幅提升文字与场景识别精准度。模型优化了上下文推理能力，关键词召回率提升20%，并支持日语、韩语、德语、法语等13种外语识别。通过深度理解上下文及图像辅助，可精准判断易混淆词汇，如搜拍场景中的“滑鸡”与“滑稽”。此外，模型基于PPO强化学习方案，无需依赖历史记录即可泛化理解动态交互场景，适用于图片创作和跨语言交流。目前，该模型已上线火山方舟体验中心，并对外提供API服务。

原文链接