通用端到端OCR模型GOT开源,挑战多模态大模型的优越性。Vary团队通过实验展示了GOT在多种场景下的强大能力,包括PDF图像转Markdown、双栏文本感知、自然场景及细粒度OCR、动态分辨率OCR和多页OCR等。
虽然GOT表现优秀,但仍存在局限性,如多语言支持、复杂几何图形和图表上的OCR性能仍有待提升。团队认为OCR-2.0的研究之路任重道远,GOT模型还有很大的改进空间。
GOT被设计为具备广泛适用性的OCR模型,支持多种任务,如场景文字、文档、精细文字和更广泛的OCR。模型结构采用Vision Encoder+Input Embedding Layer+Decoder架构,其中Encoder主体采用带局部注意力的VITDet,后两层采用双卷积设计,实现图像压缩,适合密集型OCR任务。训练过程分为三阶段:高效预训练Encoder、联合训练Encoder-Decoder以及强化Decoder适应更多应用,如坐标或颜色引导的细粒度OCR、动态分辨率OCR和多页OCR。
面对数据工程挑战,团队利用各种工具构建数据集,包括Latex、Mathpix-markdown-it、Matplotlib、Tikz、Verovio、Pyecharts等。
团队坚信OCR研究正处于起步阶段,多模态大模型虽然强大,但在某些特定任务上仍存在局限,如推理任务导致的图像标记过多、模型过大导致迭代困难等。GOT旨在展示即使在资源有限的情况下,也能开发出高效且适用性广的OCR模型,为后续研究者提供有力工具。
原文链接
本文链接:https://kx.umi6.com/article/6060.html
转载请注明文章出处
相关推荐
换一换
通用端到端OCR模型开源,拒绝多模态大模型降维打击
2024-09-10 19:14:24
OpenAI:推出用户年龄预测功能 以保护未成年用户
2026-01-21 15:17:45
凸显新型国际财经媒体优势 界面财联社旗下财跃星辰AI决策系统入选上海开源典型案例
2026-01-22 12:52:54
OpenAI:将自行承担“星际之门”项目能源费用,确保不会推高电价
2026-01-21 13:12:22
微软CEO:AI时代的核心不是“单一模型” 而是“模型编排与算力工厂”
2026-01-21 17:23:41
黄仁勋:AI时代蓝领更吃香 水管工、电工能拿六位数薪水
2026-01-22 07:42:15
中国团队首次在Nature子刊发布医疗AI标准,未来医生MedGPT摘得全球桂冠
2026-01-21 13:06:32
广东:推广邮政快递末端智能收派服务 推动无人车、无人机与智能快件箱协同配送
2026-01-21 17:22:35
百川发布循证增强医疗大模型M3 Plus
2026-01-22 14:59:21
我国已累计推动价值超550亿元新材料产品进入市场
2026-01-21 17:24:39
阿里云智能集团资深副总裁李飞飞:内存价格预计还会上涨两到三倍
2026-01-22 19:09:39
大学开始用AI招生了
2026-01-22 15:58:41
中国政府只在特殊情况下批准购买H200芯片?商务部回应
2026-01-22 16:03:57
669 文章
443505 浏览
24小时热文
更多
-
2026-01-23 09:43:53 -
2026-01-23 08:40:41 -
2026-01-23 06:34:26