通用端到端OCR模型开源，拒绝多模态大模型降维打击

2024-09-10 19:14:24

智能涌动

发布在

科普

阅读：634

通用端到端OCR模型GOT开源，挑战多模态大模型的优越性。Vary团队通过实验展示了GOT在多种场景下的强大能力，包括PDF图像转Markdown、双栏文本感知、自然场景及细粒度OCR、动态分辨率OCR和多页OCR等。

虽然GOT表现优秀，但仍存在局限性，如多语言支持、复杂几何图形和图表上的OCR性能仍有待提升。团队认为OCR-2.0的研究之路任重道远，GOT模型还有很大的改进空间。

GOT被设计为具备广泛适用性的OCR模型，支持多种任务，如场景文字、文档、精细文字和更广泛的OCR。模型结构采用Vision Encoder+Input Embedding Layer+Decoder架构，其中Encoder主体采用带局部注意力的VITDet，后两层采用双卷积设计，实现图像压缩，适合密集型OCR任务。训练过程分为三阶段：高效预训练Encoder、联合训练Encoder-Decoder以及强化Decoder适应更多应用，如坐标或颜色引导的细粒度OCR、动态分辨率OCR和多页OCR。

面对数据工程挑战，团队利用各种工具构建数据集，包括Latex、Mathpix-markdown-it、Matplotlib、Tikz、Verovio、Pyecharts等。

团队坚信OCR研究正处于起步阶段，多模态大模型虽然强大，但在某些特定任务上仍存在局限，如推理任务导致的图像标记过多、模型过大导致迭代困难等。GOT旨在展示即使在资源有限的情况下，也能开发出高效且适用性广的OCR模型，为后续研究者提供有力工具。

原文链接

本文链接：https://kx.umi6.com/article/6060.html

转载请注明文章出处

GOT模型