综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月29日,百度发布并开源新一代OCR模型PaddleOCR-VL-1.5,以0.9B参数量在全球权威评测OmniDocBench V1.5中综合性能排名第一,精度达94.5%,超越Gemini-3-Pro、DeepSeek-OCR2等主流模型。该模型首次实现“异形框定位”,精准识别倾斜、弯折等非规则文档形态,解决真实场景中的形变问题,适用于金融票据、政务文档等复杂场景。其在表格结构理解(92.8分)和阅读顺序预测(95.8分)等关键指标上领先,并新增藏语、孟加拉语支持及跨页表格合并功能。近半年来,DeepSeek-OCR2、Mistral AI等厂商密集布局OCR领域,行业竞争加剧。PaddleOCR-VL-1.5已全面开源,开发者可通过GitHub或百度智能云千帆平台获取与调用API接口。
原文链接
加载更多
暂无内容