12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),新增多模态视觉识别功能,支持“听懂字”和“看懂图”,大幅提升文字与场景识别精准度。模型优化了上下文推理能力,关键词召回率提升20%,并支持日语、韩语、德语、法语等13种外语识别。通过深度理解上下文及图像辅助,可精准判断易混淆词汇,如搜拍场景中的“滑鸡”与“滑稽”。此外,模型基于PPO强化学习方案,无需依赖历史记录即可泛化理解动态交互场景,适用于图片创作和跨语言交流。目前,该模型已上线火山方舟体验中心,并对外提供API服务。
原文链接
本文链接:https://kx.umi6.com/article/29733.html
转载请注明文章出处
相关推荐
换一换
豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语
2025-12-05 16:43:33
豆包语音识别模型2.0上线
2025-12-05 16:45:45
文心 App 要做社交了?百度内部人士:没有考虑取代微信
2026-01-21 16:18:23
2026年将成消费电子「最贵之年」?
2026-01-22 00:31:16
英伟达黄仁勋:AI机器人是欧洲难得机遇
2026-01-22 08:44:42
“格陵兰纷争”冲击美股 知名分析师建议趁机买入AI科技股
2026-01-21 15:19:59
台积电3纳米产能满载至2027年
2026-01-21 14:12:45
2025 年 ACM Fellow 名单公布:郑宇、梅涛、金海、陈宝权等 19 名华人学者入榜
2026-01-23 11:50:59
商务部等9部门:推动药品零售企业监管向服务型监管、预防型监管、数智化治理转变
2026-01-22 17:04:48
我国已累计推动价值超550亿元新材料产品进入市场
2026-01-21 17:24:39
头号重仓股易主 公募持续掘金AI主线
2026-01-23 06:34:26
Node.js之父:手写代码已死
2026-01-22 14:57:11
美国AI财大气粗 国产AI学不了:Kimi仅用了1%算力就超越主流闭源
2026-01-22 22:14:12
641 文章
416164 浏览
24小时热文
更多
-
2026-01-23 12:56:24 -
2026-01-23 11:53:08 -
2026-01-23 11:52:03