1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

1月29日,百度发布并开源新一代OCR模型PaddleOCR-VL-1.5,以0.9B参数量在全球权威评测OmniDocBench V1.5中综合性能排名第一,精度达94.5%,超越Gemini-3-Pro、DeepSeek-OCR2等主流模型。该模型首次实现“异形框定位”,精准识别倾斜、弯折等非规则文档形态,解决真实场景中的形变问题,适用于金融票据、政务文档等复杂场景。其在表格结构理解(92.8分)和阅读顺序预测(95.8分)等关键指标上领先,并新增藏语、孟加拉语支持及跨页表格合并功能。近半年来,DeepSeek-OCR2、Mistral AI等厂商密集布局OCR领域,行业竞争加剧。PaddleOCR-VL-1.5已全面开源,开发者可通过GitHub或百度智能云千帆平台获取与调用API接口。

原文链接
本文链接:https://kx.umi6.com/article/32378.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-4o 系列 AI 模型加持,微软 LlamaParse 文档解析能力全面升级
2024-11-28 14:33:00
技术深度揭秘|云知声U1-OCR架构升级 + API 开放,重构 OCR 3.0 时代
2026-04-21 13:04:23
百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA
2026-06-02 16:33:00
只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型
2025-10-24 16:47:14
腾讯混元OCR模型宣布开源
2025-11-25 15:00:37
全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA
2025-10-17 18:22:56
只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型
2025-10-24 16:47:14
英伟达发布 Llama Nemotron Nano VL AI:高效精准,攻克复杂文档解析难题
2025-06-05 08:46:44
两个「卖铲」程序员,不到2年撬动7个亿
2025-12-01 07:53:25
腾讯混元 OCR 模型宣布开源:参数仅 1B,多项核心能力 SOTA
2025-11-25 14:56:08
英伟达开源 OCR 代码推理 AI 模型:LiveCodeBench 基准超 OpenAI o3-Mini 和 o1(low)
2025-05-09 14:54:42
波恩大学 Maren Bennewitz 教授:让机器人在遮挡世界中主动获取信息 | ICRA 2026
2026-06-05 19:22:55
AI“吹大”的美股泡沫有多大?高盛:确有过热 但未至历史极端水平
2026-06-08 16:35:40
24小时热文
更多
扫一扫体验小程序