OCR模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

性能超越DeepSeek-OCR2，百度发布并开源新一代SOTA OCR模型

1月29日，百度发布并开源新一代OCR模型PaddleOCR-VL-1.5，以0.9B参数量在全球权威评测OmniDocBench V1.5中综合性能排名第一，精度达94.5%，超越Gemini-3-Pro、DeepSeek-OCR2等主流模型。该模型首次实现“异形框定位”，精准识别倾斜、弯折等非规则文档形态，解决真实场景中的形变问题，适用于金融票据、政务文档等复杂场景。其在表格结构理解（92.8分）和阅读顺序预测（95.8分）等关键指标上领先，并新增藏语、孟加拉语支持及跨页表格合并功能。近半年来，DeepSeek-OCR2、Mistral AI等厂商密集布局OCR领域，行业竞争加剧。PaddleOCR-VL-1.5已全面开源，开发者可通过GitHub或百度智能云千帆平台获取与调用API接口。

原文链接

Journeyman

01-30 14:32:39

OCR模型

PaddleOCR-VL-1.5

文档解析

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯混元OCR模型宣布开源

2025年11月25日，腾讯混元宣布开源全新OCR模型HunyuanOCR。该模型参数仅为1B，基于混元原生多模态架构开发，具备高效与精准的文字识别能力。这一开源举措为开发者提供了更便捷的工具，助力多模态技术应用拓展。

原文链接

心智奇点

11-25 15:00:37

OCR模型

开源

腾讯混元

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯混元 OCR 模型宣布开源：参数仅 1B，多项核心能力 SOTA

11月25日，腾讯混元宣布开源全新OCR模型HunyuanOCR，参数仅1B，多项核心能力达SOTA水平。该模型依托混元原生多模态架构，支持端到端推理，在复杂文档解析、文字检测与识别等任务中表现优异，如在OmniDocBench测评中获94.1分，超越谷歌Gemini3-pro；在OCRBench榜单上以860分领先3B以下参数模型。此外，HunyuanOCR支持14种小语种翻译，适用于票据字段抽取、视频字幕识别、拍照翻译等场景，并斩获ICDAR2025端到端文档翻译比赛小模型赛道冠军。模型已开源，可通过GitHub、HuggingFace等平台获取和体验。

原文链接

心智奇点

11-25 14:56:08

OCR模型

SOTA

腾讯混元

分享至

打开微信扫一扫

内容投诉

生成图片

只有0.9B的PaddleOCR-VL，却是现在最强的OCR模型

2025年10月，百度开源的PaddleOCR-VL模型成为当前OCR领域的最强模型。尽管仅0.9B参数量，该模型在评测集OmniDocBench v1.5中表现优异，综合得分92.56，超越DeepSeek-OCR的86.46。PaddleOCR-VL采用两步架构：先通过PP-DocLayoutV2进行布局分析，再由核心模型处理分块任务，显著提升效率与准确性。其在扫描PDF、手写笔记、论文排版及复杂表格等场景中均表现出色，识别精准且成本低，适合实际应用。目前模型已开源，可通过飞桨、魔搭或Hugging Face平台体验。PaddleOCR-VL以高效和实用取胜，为文档解析领域树立新标杆。

原文链接

GhostPilot

10-24 16:47:14

OCR模型

PaddleOCR-VL

文档解析

分享至

打开微信扫一扫

内容投诉

生成图片

全球OCR最强模型仅0.9B！百度文心衍生模型刚刚横扫4项SOTA

2025年10月17日，百度发布并开源了自研多模态文档解析模型PaddleOCR-VL，以仅0.9B参数量登顶OmniDocBench V1.5榜单，综合得分92.6，成为全球性能第一的OCR模型。该模型在文本识别、公式识别、表格理解、阅读顺序四大核心能力上全面刷新SOTA，支持109种语言及复杂场景解析。其创新两阶段架构和轻量化设计使其在效率与精度上领先同类模型，并能在单张A100 GPU上实现1881 token/s的推理速度。PaddleOCR-VL已在GitHub开源，技术报告和体验Demo同步上线，标志着中国模型在全球多模态文档解析领域树立新标准。

原文链接

幻彩逻辑RainbowLogic

10-17 18:22:56

OCR模型

PaddleOCR-VL

百度文心

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达开源 OCR 代码推理 AI 模型：LiveCodeBench 基准超 OpenAI o3-Mini 和 o1（low）

5月8日，英伟达开源了其OCR（Open Code Reasoning）代码推理AI模型套装，包含32B、14B和7B三种参数规模，均采用Apache 2.0许可证发布，并可在Hugging Face平台下载。OCR模型基于Nemotron架构训练，专为多语言、多任务优化。其中，32B模型适用于高性能场景，14B模型平衡性能与资源消耗，7B模型则适合资源受限环境。32B模型还推出指令微调版本，兼容多种主流框架。在LiveCodeBench基准测试中，OCR模型全面超越OpenAI的o3-Mini和o1(low)模型，展现了强大的代码推理能力。该成果得益于英伟达定制的高质量OCR数据集，聚焦指令遵循、推理及多步骤问题解决能力。

原文链接

QuantumHacker

05-09 14:54:42

LiveCodeBench基准

OCR模型

英伟达

分享至

打开微信扫一扫

内容投诉

生成图片

通用端到端OCR模型开源，拒绝多模态大模型降维打击

通用端到端OCR模型GOT开源，挑战多模态大模型的优越性。Vary团队通过实验展示了GOT在多种场景下的强大能力，包括PDF图像转Markdown、双栏文本感知、自然场景及细粒度OCR、动态分辨率OCR和多页OCR等。虽然GOT表现优秀，但仍存在局限性，如多语言支持、复杂几何图形和图表上的OCR性...

原文链接