1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
全球OCR新王来自中国开源!GitHub狂揽73300+Star
2026年3月,中国开源项目PaddleOCR以73300+Star登顶GitHub全球OCR项目榜,终结谷歌Tesseract OCR长期霸榜局面,成为该领域全球Star第一的开源项目。PaddleOCR基于百度文心大模型技术,推出PaddleOCR-VL和PaddleOCR-VL-1.5等核心模型,在OmniDocBench V1.5评测中以94.5%精度超越Gemini-3-Pro、GPT-5.2等多模态大模型,实现全球首次“异形框定位”。其创新的“数据为中心”优化策略与“由粗到细”架构大幅提升了效率和精度。目前,PaddleOCR覆盖160个国家和地区,支持110+种语言识别,成为开发者必备工具。随着AI行业对数据需求激增,OCR作为大模型数据生态基座的重要性日益凸显,PaddleOCR的成功标志着中国开源在基础技术领域的全球竞争力显著提升。
智慧轨迹
03-30 23:10:19
OCR
PaddleOCR
中国开源
分享至
打开微信扫一扫
内容投诉
生成图片
云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
2026年2月26日,云知声正式发布Unisound U1-OCR文档智能基础大模型,开启OCR 3.0时代。该模型以“性能SOTA、可信可验、开箱即用、高效部署、强适配”为核心优势,突破传统OCR局限,实现从字符感知到文档认知的飞跃。其采用ViT+LLM架构,参数规模达3B量级,支持动态分辨率处理和语义驱动策略,在多项权威评测中表现领先,如OmniDocBench V1.5评分95.1,D4LA F1分数90.8。模型具备精准溯源、业务融合、高效部署及复杂场景适配能力,适用于医疗、金融等高安全领域。真实场景案例显示,U1-OCR可自动分类、提取信息并处理复杂版面,大幅提升文档处理效率与准确性。
心智奇点
02-26 17:15:42
OCR 3.0
云知声
文档智能
分享至
打开微信扫一扫
内容投诉
生成图片
智谱开源GLM-OCR模型
2月3日,智谱宣布正式发布并开源GLM-OCR模型。该模型参数规模仅0.9B,支持vLLM、SGLang和Ollama部署,在公式识别、表格识别及信息抽取等多项主流基准测试中表现优异,达到SOTA水平。这一开源举措为相关领域开发者提供了高效工具,推动OCR技术进一步发展。
跨界思维
02-03 09:27:36
GLM-OCR
开源
智谱
分享至
打开微信扫一扫
内容投诉
生成图片
性能超越DeepSeek-OCR2,百度发布并开源新一代SOTA OCR模型
1月29日,百度发布并开源新一代OCR模型PaddleOCR-VL-1.5,以0.9B参数量在全球权威评测OmniDocBench V1.5中综合性能排名第一,精度达94.5%,超越Gemini-3-Pro、DeepSeek-OCR2等主流模型。该模型首次实现“异形框定位”,精准识别倾斜、弯折等非规则文档形态,解决真实场景中的形变问题,适用于金融票据、政务文档等复杂场景。其在表格结构理解(92.8分)和阅读顺序预测(95.8分)等关键指标上领先,并新增藏语、孟加拉语支持及跨页表格合并功能。近半年来,DeepSeek-OCR2、Mistral AI等厂商密集布局OCR领域,行业竞争加剧。PaddleOCR-VL-1.5已全面开源,开发者可通过GitHub或百度智能云千帆平台获取与调用API接口。
Journeyman
01-30 14:32:39
OCR模型
PaddleOCR-VL-1.5
文档解析
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型,性能媲美Gemini-3 Pro
2026年1月,DeepSeek开源全新OCR模型DeepSeek-OCR 2,专注于将PDF精准转换为Markdown。相比去年10月发布的初代模型,新版本弃用CLIP组件,改用轻量化的Qwen2-0.5B语言模型构建DeepEncoder V2,实现基于语义动态重排视觉标记的功能。这一升级解决了传统“光栅扫描”逻辑在复杂版面中的语义连贯性问题,并通过双流注意力机制提升性能。在OmniDocBench v1.5基准测试中,DeepSeek-OCR 2性能达到91.09%,较基线提升3.73%,效果媲美Gemini-3 Pro。此外,模型采用三阶段训练流程,优化数据采样与标签简化策略。项目已开源,代码和论文可在GitHub与HuggingFace获取。
蝶舞CyberSwirl
01-28 15:19:45
DeepSeek-OCR 2
Qwen轻量小模型
视觉编码
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek发布DeepSeek-OCR 2模型
1月27日,DeepSeek团队发布论文《DeepSeek-OCR 2: Visual Causal Flow》,并开源DeepSeek-OCR 2模型。该模型采用创新的DeepEncoder V2方法,使AI能够根据图像含义动态重排图像各部分,更贴近人类视觉编码逻辑。这一技术突破为图像处理领域带来新思路,同时开源模型也为开发者提供了强大工具,助力相关研究与应用发展。
Oasis
01-27 14:21:20
DeepEncoder V2
DeepSeek-OCR 2
视觉编码逻辑
分享至
打开微信扫一扫
内容投诉
生成图片
混元OCR模型核心技术揭秘:统一框架、真端到端
2025年11月,腾讯混元大模型团队正式发布并开源HunyuanOCR模型,这是一款商业级、轻量(1B参数)的OCR专用视觉语言模型,采用原生ViT和轻量LLM架构。其感知能力(文本检测、复杂文档解析)优于所有公开方案,语义能力(信息抽取、翻译)表现出色,荣获ICDAR 2025 DIMT挑战赛小模型赛道冠军,并在OCRBench上取得3B以下模型SOTA成绩。该模型实现三大突破:全能与高效统一、极简端到端架构、数据驱动与强化学习创新。目前,模型已在Hugging Face趋势榜排名前四,GitHub标星超700,并被vllm官方团队接入。项目提供高性能部署方案,助力科研与工业落地。
小阳哥
11-30 11:05:21
强化学习
混元OCR
端到端
分享至
打开微信扫一扫
内容投诉
生成图片
腾讯混元OCR模型宣布开源
2025年11月25日,腾讯混元宣布开源全新OCR模型HunyuanOCR。该模型参数仅为1B,基于混元原生多模态架构开发,具备高效与精准的文字识别能力。这一开源举措为开发者提供了更便捷的工具,助力多模态技术应用拓展。
心智奇点
11-25 15:00:37
OCR模型
开源
腾讯混元
分享至
打开微信扫一扫
内容投诉
生成图片
腾讯混元 OCR 模型宣布开源:参数仅 1B,多项核心能力 SOTA
11月25日,腾讯混元宣布开源全新OCR模型HunyuanOCR,参数仅1B,多项核心能力达SOTA水平。该模型依托混元原生多模态架构,支持端到端推理,在复杂文档解析、文字检测与识别等任务中表现优异,如在OmniDocBench测评中获94.1分,超越谷歌Gemini3-pro;在OCRBench榜单上以860分领先3B以下参数模型。此外,HunyuanOCR支持14种小语种翻译,适用于票据字段抽取、视频字幕识别、拍照翻译等场景,并斩获ICDAR2025端到端文档翻译比赛小模型赛道冠军。模型已开源,可通过GitHub、HuggingFace等平台获取和体验。
心智奇点
11-25 14:56:08
OCR模型
SOTA
腾讯混元
分享至
打开微信扫一扫
内容投诉
生成图片
只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型
2025年10月,百度开源的PaddleOCR-VL模型成为当前OCR领域的最强模型。尽管仅0.9B参数量,该模型在评测集OmniDocBench v1.5中表现优异,综合得分92.56,超越DeepSeek-OCR的86.46。PaddleOCR-VL采用两步架构:先通过PP-DocLayoutV2进行布局分析,再由核心模型处理分块任务,显著提升效率与准确性。其在扫描PDF、手写笔记、论文排版及复杂表格等场景中均表现出色,识别精准且成本低,适合实际应用。目前模型已开源,可通过飞桨、魔搭或Hugging Face平台体验。PaddleOCR-VL以高效和实用取胜,为文档解析领域树立新标杆。
GhostPilot
10-24 16:47:14
OCR模型
PaddleOCR-VL
文档解析
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序