OCR - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

全球OCR新王来自中国开源！GitHub狂揽73300+Star

2026年3月，中国开源项目PaddleOCR以73300+Star登顶GitHub全球OCR项目榜，终结谷歌Tesseract OCR长期霸榜局面，成为该领域全球Star第一的开源项目。PaddleOCR基于百度文心大模型技术，推出PaddleOCR-VL和PaddleOCR-VL-1.5等核心模型，在OmniDocBench V1.5评测中以94.5%精度超越Gemini-3-Pro、GPT-5.2等多模态大模型，实现全球首次“异形框定位”。其创新的“数据为中心”优化策略与“由粗到细”架构大幅提升了效率和精度。目前，PaddleOCR覆盖160个国家和地区，支持110+种语言识别，成为开发者必备工具。随着AI行业对数据需求激增，OCR作为大模型数据生态基座的重要性日益凸显，PaddleOCR的成功标志着中国开源在基础技术领域的全球竞争力显著提升。

原文链接

智慧轨迹

03-30 23:10:19

OCR

PaddleOCR

中国开源

分享至

打开微信扫一扫

内容投诉

生成图片

云知声Unisound U1-OCR大模型发布！首个工业级文档智能基础大模型，开启OCR 3.0时代

2026年2月26日，云知声正式发布Unisound U1-OCR文档智能基础大模型，开启OCR 3.0时代。该模型以“性能SOTA、可信可验、开箱即用、高效部署、强适配”为核心优势，突破传统OCR局限，实现从字符感知到文档认知的飞跃。其采用ViT+LLM架构，参数规模达3B量级，支持动态分辨率处理和语义驱动策略，在多项权威评测中表现领先，如OmniDocBench V1.5评分95.1，D4LA F1分数90.8。模型具备精准溯源、业务融合、高效部署及复杂场景适配能力，适用于医疗、金融等高安全领域。真实场景案例显示，U1-OCR可自动分类、提取信息并处理复杂版面，大幅提升文档处理效率与准确性。

原文链接

心智奇点

02-26 17:15:42

OCR 3.0

云知声

文档智能

分享至

打开微信扫一扫

内容投诉

生成图片

智谱开源GLM-OCR模型

2月3日，智谱宣布正式发布并开源GLM-OCR模型。该模型参数规模仅0.9B，支持vLLM、SGLang和Ollama部署，在公式识别、表格识别及信息抽取等多项主流基准测试中表现优异，达到SOTA水平。这一开源举措为相关领域开发者提供了高效工具，推动OCR技术进一步发展。

原文链接

跨界思维

02-03 09:27:36

GLM-OCR

开源

智谱

分享至

打开微信扫一扫

内容投诉

生成图片

性能超越DeepSeek-OCR2，百度发布并开源新一代SOTA OCR模型

1月29日，百度发布并开源新一代OCR模型PaddleOCR-VL-1.5，以0.9B参数量在全球权威评测OmniDocBench V1.5中综合性能排名第一，精度达94.5%，超越Gemini-3-Pro、DeepSeek-OCR2等主流模型。该模型首次实现“异形框定位”，精准识别倾斜、弯折等非规则文档形态，解决真实场景中的形变问题，适用于金融票据、政务文档等复杂场景。其在表格结构理解（92.8分）和阅读顺序预测（95.8分）等关键指标上领先，并新增藏语、孟加拉语支持及跨页表格合并功能。近半年来，DeepSeek-OCR2、Mistral AI等厂商密集布局OCR领域，行业竞争加剧。PaddleOCR-VL-1.5已全面开源，开发者可通过GitHub或百度智能云千帆平台获取与调用API接口。

原文链接

Journeyman

01-30 14:32:39

OCR模型

PaddleOCR-VL-1.5

文档解析

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek开源全新OCR模型！弃用CLIP改用Qwen轻量小模型，性能媲美Gemini-3 Pro

2026年1月，DeepSeek开源全新OCR模型DeepSeek-OCR 2，专注于将PDF精准转换为Markdown。相比去年10月发布的初代模型，新版本弃用CLIP组件，改用轻量化的Qwen2-0.5B语言模型构建DeepEncoder V2，实现基于语义动态重排视觉标记的功能。这一升级解决了传统“光栅扫描”逻辑在复杂版面中的语义连贯性问题，并通过双流注意力机制提升性能。在OmniDocBench v1.5基准测试中，DeepSeek-OCR 2性能达到91.09%，较基线提升3.73%，效果媲美Gemini-3 Pro。此外，模型采用三阶段训练流程，优化数据采样与标签简化策略。项目已开源，代码和论文可在GitHub与HuggingFace获取。

原文链接

蝶舞CyberSwirl

01-28 15:19:45

DeepSeek-OCR 2

Qwen轻量小模型

视觉编码

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek发布DeepSeek-OCR 2模型

1月27日，DeepSeek团队发布论文《DeepSeek-OCR 2: Visual Causal Flow》，并开源DeepSeek-OCR 2模型。该模型采用创新的DeepEncoder V2方法，使AI能够根据图像含义动态重排图像各部分，更贴近人类视觉编码逻辑。这一技术突破为图像处理领域带来新思路，同时开源模型也为开发者提供了强大工具，助力相关研究与应用发展。

原文链接

Oasis

01-27 14:21:20

DeepEncoder V2

DeepSeek-OCR 2

视觉编码逻辑

分享至

打开微信扫一扫

内容投诉

生成图片

混元OCR模型核心技术揭秘：统一框架、真端到端

2025年11月，腾讯混元大模型团队正式发布并开源HunyuanOCR模型，这是一款商业级、轻量（1B参数）的OCR专用视觉语言模型，采用原生ViT和轻量LLM架构。其感知能力（文本检测、复杂文档解析）优于所有公开方案，语义能力（信息抽取、翻译）表现出色，荣获ICDAR 2025 DIMT挑战赛小模型赛道冠军，并在OCRBench上取得3B以下模型SOTA成绩。该模型实现三大突破：全能与高效统一、极简端到端架构、数据驱动与强化学习创新。目前，模型已在Hugging Face趋势榜排名前四，GitHub标星超700，并被vllm官方团队接入。项目提供高性能部署方案，助力科研与工业落地。

原文链接

小阳哥

11-30 11:05:21

强化学习

混元OCR

端到端

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯混元OCR模型宣布开源

2025年11月25日，腾讯混元宣布开源全新OCR模型HunyuanOCR。该模型参数仅为1B，基于混元原生多模态架构开发，具备高效与精准的文字识别能力。这一开源举措为开发者提供了更便捷的工具，助力多模态技术应用拓展。

原文链接

心智奇点

11-25 15:00:37

OCR模型

开源

腾讯混元

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯混元 OCR 模型宣布开源：参数仅 1B，多项核心能力 SOTA

11月25日，腾讯混元宣布开源全新OCR模型HunyuanOCR，参数仅1B，多项核心能力达SOTA水平。该模型依托混元原生多模态架构，支持端到端推理，在复杂文档解析、文字检测与识别等任务中表现优异，如在OmniDocBench测评中获94.1分，超越谷歌Gemini3-pro；在OCRBench榜单上以860分领先3B以下参数模型。此外，HunyuanOCR支持14种小语种翻译，适用于票据字段抽取、视频字幕识别、拍照翻译等场景，并斩获ICDAR2025端到端文档翻译比赛小模型赛道冠军。模型已开源，可通过GitHub、HuggingFace等平台获取和体验。

原文链接

心智奇点

11-25 14:56:08

OCR模型

SOTA

腾讯混元

分享至

打开微信扫一扫

内容投诉

生成图片

只有0.9B的PaddleOCR-VL，却是现在最强的OCR模型

2025年10月，百度开源的PaddleOCR-VL模型成为当前OCR领域的最强模型。尽管仅0.9B参数量，该模型在评测集OmniDocBench v1.5中表现优异，综合得分92.56，超越DeepSeek-OCR的86.46。PaddleOCR-VL采用两步架构：先通过PP-DocLayoutV2进行布局分析，再由核心模型处理分块任务，显著提升效率与准确性。其在扫描PDF、手写笔记、论文排版及复杂表格等场景中均表现出色，识别精准且成本低，适合实际应用。目前模型已开源，可通过飞桨、魔搭或Hugging Face平台体验。PaddleOCR-VL以高效和实用取胜，为文档解析领域树立新标杆。

原文链接