1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

通用端到端OCR模型GOT开源,挑战多模态大模型的优越性。Vary团队通过实验展示了GOT在多种场景下的强大能力,包括PDF图像转Markdown、双栏文本感知、自然场景及细粒度OCR、动态分辨率OCR和多页OCR等。

虽然GOT表现优秀,但仍存在局限性,如多语言支持、复杂几何图形和图表上的OCR性能仍有待提升。团队认为OCR-2.0的研究之路任重道远,GOT模型还有很大的改进空间。

GOT被设计为具备广泛适用性的OCR模型,支持多种任务,如场景文字、文档、精细文字和更广泛的OCR。模型结构采用Vision Encoder+Input Embedding Layer+Decoder架构,其中Encoder主体采用带局部注意力的VITDet,后两层采用双卷积设计,实现图像压缩,适合密集型OCR任务。训练过程分为三阶段:高效预训练Encoder、联合训练Encoder-Decoder以及强化Decoder适应更多应用,如坐标或颜色引导的细粒度OCR、动态分辨率OCR和多页OCR。

面对数据工程挑战,团队利用各种工具构建数据集,包括Latex、Mathpix-markdown-it、Matplotlib、Tikz、Verovio、Pyecharts等。

团队坚信OCR研究正处于起步阶段,多模态大模型虽然强大,但在某些特定任务上仍存在局限,如推理任务导致的图像标记过多、模型过大导致迭代困难等。GOT旨在展示即使在资源有限的情况下,也能开发出高效且适用性广的OCR模型,为后续研究者提供有力工具。

原文链接
本文链接:https://kx.umi6.com/article/6060.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
通用端到端OCR模型开源,拒绝多模态大模型降维打击
2024-09-10 19:14:24
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
2026-03-07 13:31:18
国家发展改革委主任:“十五五”末人工智能相关产业规模将增长到10万亿元以上
2026-03-06 16:15:23
Anthropic研究员:AI对就业市场的冲击尚处早期
2026-03-08 18:29:49
无锡高新区发布“养龙虾”12条 最高补贴500万
2026-03-09 14:47:52
火山引擎上线ArkClaw:开箱即用的云上SaaS版OpenClaw
2026-03-09 15:55:48
清华公布毕业生去向:出国比例仅8.5%,华为字节是最大赢家
2026-03-08 15:07:37
美国拟将AI芯片出口管制扩展至全球 英伟达、AMD等公司出口需获许可
2026-03-06 06:31:53
郑栅洁:从未来发展考虑 将推进人工智能超大规模智算集群、卫星互联网、可控核聚变等一系列重大工程和项目
2026-03-06 17:23:58
2.2亿人正和AI谈恋爱 学者:AI伴侣对孤独或受伤的人有好处
2026-03-08 21:41:26
脉脉:AI岗位量暴涨12倍 平均月薪超6万元领跑春招市场
2026-03-09 19:05:07
超智算智能算力中心揭牌暨AI算力设备点亮仪式成功举行
2026-03-06 20:29:36
李开复谈OpenClaw:今年是“企业多智能体上岗”元年
2026-03-06 15:13:08
24小时热文
更多
扫一扫体验小程序