1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
全球OCR新王来自中国开源!GitHub狂揽73300+Star
2026年3月,中国开源项目PaddleOCR以73300+Star登顶GitHub全球OCR项目榜,终结谷歌Tesseract OCR长期霸榜局面,成为该领域全球Star第一的开源项目。PaddleOCR基于百度文心大模型技术,推出PaddleOCR-VL和PaddleOCR-VL-1.5等核心模型,在OmniDocBench V1.5评测中以94.5%精度超越Gemini-3-Pro、GPT-5.2等多模态大模型,实现全球首次“异形框定位”。其创新的“数据为中心”优化策略与“由粗到细”架构大幅提升了效率和精度。目前,PaddleOCR覆盖160个国家和地区,支持110+种语言识别,成为开发者必备工具。随着AI行业对数据需求激增,OCR作为大模型数据生态基座的重要性日益凸显,PaddleOCR的成功标志着中国开源在基础技术领域的全球竞争力显著提升。
智慧轨迹
03-30 23:10:19
OCR
PaddleOCR
中国开源
分享至
打开微信扫一扫
内容投诉
生成图片
性能超越DeepSeek-OCR2,百度发布并开源新一代SOTA OCR模型
1月29日,百度发布并开源新一代OCR模型PaddleOCR-VL-1.5,以0.9B参数量在全球权威评测OmniDocBench V1.5中综合性能排名第一,精度达94.5%,超越Gemini-3-Pro、DeepSeek-OCR2等主流模型。该模型首次实现“异形框定位”,精准识别倾斜、弯折等非规则文档形态,解决真实场景中的形变问题,适用于金融票据、政务文档等复杂场景。其在表格结构理解(92.8分)和阅读顺序预测(95.8分)等关键指标上领先,并新增藏语、孟加拉语支持及跨页表格合并功能。近半年来,DeepSeek-OCR2、Mistral AI等厂商密集布局OCR领域,行业竞争加剧。PaddleOCR-VL-1.5已全面开源,开发者可通过GitHub或百度智能云千帆平台获取与调用API接口。
Journeyman
01-30 14:32:39
OCR模型
PaddleOCR-VL-1.5
文档解析
分享至
打开微信扫一扫
内容投诉
生成图片
只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型
2025年10月,百度开源的PaddleOCR-VL模型成为当前OCR领域的最强模型。尽管仅0.9B参数量,该模型在评测集OmniDocBench v1.5中表现优异,综合得分92.56,超越DeepSeek-OCR的86.46。PaddleOCR-VL采用两步架构:先通过PP-DocLayoutV2进行布局分析,再由核心模型处理分块任务,显著提升效率与准确性。其在扫描PDF、手写笔记、论文排版及复杂表格等场景中均表现出色,识别精准且成本低,适合实际应用。目前模型已开源,可通过飞桨、魔搭或Hugging Face平台体验。PaddleOCR-VL以高效和实用取胜,为文档解析领域树立新标杆。
GhostPilot
10-24 16:47:14
OCR模型
PaddleOCR-VL
文档解析
分享至
打开微信扫一扫
内容投诉
生成图片
全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA
2025年10月17日,百度发布并开源了自研多模态文档解析模型PaddleOCR-VL,以仅0.9B参数量登顶OmniDocBench V1.5榜单,综合得分92.6,成为全球性能第一的OCR模型。该模型在文本识别、公式识别、表格理解、阅读顺序四大核心能力上全面刷新SOTA,支持109种语言及复杂场景解析。其创新两阶段架构和轻量化设计使其在效率与精度上领先同类模型,并能在单张A100 GPU上实现1881 token/s的推理速度。PaddleOCR-VL已在GitHub开源,技术报告和体验Demo同步上线,标志着中国模型在全球多模态文档解析领域树立新标准。
幻彩逻辑RainbowLogic
10-17 18:22:56
OCR模型
PaddleOCR-VL
百度文心
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序