通用端到端OCR模型GOT开源,挑战多模态大模型的优越性。Vary团队通过实验展示了GOT在多种场景下的强大能力,包括PDF图像转Markdown、双栏文本感知、自然场景及细粒度OCR、动态分辨率OCR和多页OCR等。
虽然GOT表现优秀,但仍存在局限性,如多语言支持、复杂几何图形和图表上的OCR性能仍有待提升。团队认为OCR-2.0的研究之路任重道远,GOT模型还有很大的改进空间。
GOT被设计为具备广泛适用性的OCR模型,支持多种任务,如场景文字、文档、精细文字和更广泛的OCR。模型结构采用Vision Encoder+Input Embedding Layer+Decoder架构,其中Encoder主体采用带局部注意力的VITDet,后两层采用双卷积设计,实现图像压缩,适合密集型OCR任务。训练过程分为三阶段:高效预训练Encoder、联合训练Encoder-Decoder以及强化Decoder适应更多应用,如坐标或颜色引导的细粒度OCR、动态分辨率OCR和多页OCR。
面对数据工程挑战,团队利用各种工具构建数据集,包括Latex、Mathpix-markdown-it、Matplotlib、Tikz、Verovio、Pyecharts等。
团队坚信OCR研究正处于起步阶段,多模态大模型虽然强大,但在某些特定任务上仍存在局限,如推理任务导致的图像标记过多、模型过大导致迭代困难等。GOT旨在展示即使在资源有限的情况下,也能开发出高效且适用性广的OCR模型,为后续研究者提供有力工具。
原文链接
本文链接:https://kx.umi6.com/article/6060.html
转载请注明文章出处
相关推荐
.png)
换一换
通用端到端OCR模型开源,拒绝多模态大模型降维打击
2024-09-10 19:14:24
OpenAI今年预计通过ChatGPT实现近100亿美元收入
2025-09-06 10:33:35
纽约联储调查:人工智能应用加速扩张,但目前对就业影响有限
2025-09-05 00:10:35
还得继续砸钱,OpenAI 预计到 2029 年总支出或超千亿美元
2025-09-06 20:38:03
腾讯大笔资金加码AI 曝一业务关停 相关视频号已被注销 官网显示“当前服务升级维护中”
2025-09-05 12:21:09
通义千问系列最强大的语言模型:Qwen3-Max-Preview 上线
2025-09-06 00:26:52
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
2025-09-06 12:37:03
调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模
2025-09-06 12:36:04
巨头抢滩AIGC,美团、百度新AI实测来了
2025-09-05 09:14:51
马斯克,有望成万亿美元巨富
2025-09-05 22:27:21
一场会议聊透具身智能:模型、数据、场景,我们梳理出了关键洞察
2025-09-05 10:21:32
美国加州、特拉华州检察长警告 OpenAI:对伤害儿童的行为应当零容忍
2025-09-06 21:38:26
新一轮AI浏览器大战,谷歌将掉队了?
2025-09-05 10:20:22
527 文章
175117 浏览
24小时热文
更多

-
2025-09-07 06:42:57
-
2025-09-07 00:40:01
-
2025-09-06 23:39:46