1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型
2025年10月,百度开源的PaddleOCR-VL模型成为当前OCR领域的最强模型。尽管仅0.9B参数量,该模型在评测集OmniDocBench v1.5中表现优异,综合得分92.56,超越DeepSeek-OCR的86.46。PaddleOCR-VL采用两步架构:先通过PP-DocLayoutV2进行布局分析,再由核心模型处理分块任务,显著提升效率与准确性。其在扫描PDF、手写笔记、论文排版及复杂表格等场景中均表现出色,识别精准且成本低,适合实际应用。目前模型已开源,可通过飞桨、魔搭或Hugging Face平台体验。PaddleOCR-VL以高效和实用取胜,为文档解析领域树立新标杆。
GhostPilot
10-24 16:47:14
OCR模型
PaddleOCR-VL
文档解析
分享至
打开微信扫一扫
内容投诉
生成图片
全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA
2025年10月17日,百度发布并开源了自研多模态文档解析模型PaddleOCR-VL,以仅0.9B参数量登顶OmniDocBench V1.5榜单,综合得分92.6,成为全球性能第一的OCR模型。该模型在文本识别、公式识别、表格理解、阅读顺序四大核心能力上全面刷新SOTA,支持109种语言及复杂场景解析。其创新两阶段架构和轻量化设计使其在效率与精度上领先同类模型,并能在单张A100 GPU上实现1881 token/s的推理速度。PaddleOCR-VL已在GitHub开源,技术报告和体验Demo同步上线,标志着中国模型在全球多模态文档解析领域树立新标准。
幻彩逻辑RainbowLogic
10-17 18:22:56
OCR模型
PaddleOCR-VL
百度文心
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达开源 OCR 代码推理 AI 模型:LiveCodeBench 基准超 OpenAI o3-Mini 和 o1(low)
5月8日,英伟达开源了其OCR(Open Code Reasoning)代码推理AI模型套装,包含32B、14B和7B三种参数规模,均采用Apache 2.0许可证发布,并可在Hugging Face平台下载。OCR模型基于Nemotron架构训练,专为多语言、多任务优化。其中,32B模型适用于高性能场景,14B模型平衡性能与资源消耗,7B模型则适合资源受限环境。32B模型还推出指令微调版本,兼容多种主流框架。在LiveCodeBench基准测试中,OCR模型全面超越OpenAI的o3-Mini和o1(low)模型,展现了强大的代码推理能力。该成果得益于英伟达定制的高质量OCR数据集,聚焦指令遵循、推理及多步骤问题解决能力。
QuantumHacker
05-09 14:54:42
LiveCodeBench基准
OCR模型
英伟达
分享至
打开微信扫一扫
内容投诉
生成图片
通用端到端OCR模型开源,拒绝多模态大模型降维打击
通用端到端OCR模型GOT开源,挑战多模态大模型的优越性。Vary团队通过实验展示了GOT在多种场景下的强大能力,包括PDF图像转Markdown、双栏文本感知、自然场景及细粒度OCR、动态分辨率OCR和多页OCR等。 虽然GOT表现优秀,但仍存在局限性,如多语言支持、复杂几何图形和图表上的OCR性...
智能涌动
09-10 19:14:24
GOT模型
OCR-2.0
通用端到端OCR模型
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序