12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),新增多模态视觉识别功能,支持“听懂字”和“看懂图”,大幅提升文字与场景识别精准度。模型优化了上下文推理能力,关键词召回率提升20%,并支持日语、韩语、德语、法语等13种外语识别。通过深度理解上下文及图像辅助,可精准判断易混淆词汇,如搜拍场景中的“滑鸡”与“滑稽”。此外,模型基于PPO强化学习方案,无需依赖历史记录即可泛化理解动态交互场景,适用于图片创作和跨语言交流。目前,该模型已上线火山方舟体验中心,并对外提供API服务。
原文链接
本文链接:https://kx.umi6.com/article/29733.html
转载请注明文章出处
相关推荐
换一换
豆包语音识别模型2.0上线
2025-12-05 16:45:45
豆包语音识别模型 2.0 上线:不仅“听懂字”还能“看懂图”,支持日韩德法等 13 种外语
2025-12-05 16:43:33
Meta 组建全明星设计团队:前苹果副总裁 Alan Dye 挂帅,攻坚 AI 眼镜
2025-12-05 16:41:06
AI可穿戴公司Limitless宣布被Meta收购
2025-12-06 07:17:46
著名教授Ken Ono加入AI初创公司Axiom,担任创始数学家
2025-12-05 16:38:52
工信部召开务虚会 研究谋划“十五五”及开局之年工作
2025-12-07 15:35:49
浪潮信息驶入AI深水区
2025-12-05 16:40:08
谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?
2025-12-05 19:46:53
英国拟全面推广 AI 人脸识别系统,但黑人、亚裔“极易”被误报为涉案人员
2025-12-06 16:38:53
“豆包手机”在二手市场价格都翻倍了……
2025-12-05 15:34:04
广州传感器巨头赴港IPO
2025-12-05 11:21:47
OpenAI和NextDC计划斥资46亿美元在澳大利亚悉尼建设数据中心
2025-12-05 11:28:34
山西“十五五”规划建议:加快建成辐射全国的煤炭、焦炭交易中心
2025-12-05 10:20:20
599 文章
347174 浏览
24小时热文
更多
-
2025-12-07 20:45:46 -
2025-12-07 18:40:26 -
2025-12-07 18:39:34