综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),新增多模态视觉识别功能,支持“听懂字”和“看懂图”,大幅提升文字与场景识别精准度。模型优化了上下文推理能力,关键词召回率提升20%,并支持日语、韩语、德语、法语等13种外语识别。通过深度理解上下文及图像辅助,可精准判断易混淆词汇,如搜拍场景中的“滑鸡”与“滑稽”。此外,模型基于PPO强化学习方案,无需依赖历史记录即可泛化理解动态交互场景,适用于图片创作和跨语言交流。目前,该模型已上线火山方舟体验中心,并对外提供API服务。
原文链接
加载更多
暂无内容