11月25日,腾讯混元宣布开源全新OCR模型HunyuanOCR,参数仅1B,多项核心能力达SOTA水平。该模型依托混元原生多模态架构,支持端到端推理,在复杂文档解析、文字检测与识别等任务中表现优异,如在OmniDocBench测评中获94.1分,超越谷歌Gemini3-pro;在OCRBench榜单上以860分领先3B以下参数模型。此外,HunyuanOCR支持14种小语种翻译,适用于票据字段抽取、视频字幕识别、拍照翻译等场景,并斩获ICDAR2025端到端文档翻译比赛小模型赛道冠军。模型已开源,可通过GitHub、HuggingFace等平台获取和体验。
原文链接
本文链接:https://kx.umi6.com/article/29093.html
转载请注明文章出处
相关推荐
换一换
腾讯混元大模型上线并开源文生视频能力:支持中英文双语输入,参数量 130 亿
2024-12-03 16:29:24
腾讯混元 Voyager3D 世界模型发布,可生成长距离、世界一致的漫游场景
2025-09-02 17:35:42
英伟达开源 OCR 代码推理 AI 模型:LiveCodeBench 基准超 OpenAI o3-Mini 和 o1(low)
2025-05-09 14:54:42
1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR
2025-05-31 13:06:45
纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源
2025-05-22 11:30:40
腾讯混元 T1-Vision 上线元宝:可深度理解图片内容
2025-05-12 21:40:45
性能超越DeepSeek-OCR2,百度发布并开源新一代SOTA OCR模型
2026-01-30 14:32:39
那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线
2026-01-27 00:41:43
腾讯混元图像 2.0 模型发布:毫秒级响应,一边打字一边出图
2025-05-16 17:56:45
腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
2025-05-16 17:13:07
姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程
2026-02-13 15:24:22
最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了
2024-08-08 14:12:29
腾讯混元发布并开源图生视频模型:可生成 5 秒短视频,还能自动配上背景音效
2025-03-07 09:57:02
629 文章
432757 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18