
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月8日,英伟达开源了其OCR(Open Code Reasoning)代码推理AI模型套装,包含32B、14B和7B三种参数规模,均采用Apache 2.0许可证发布,并可在Hugging Face平台下载。OCR模型基于Nemotron架构训练,专为多语言、多任务优化。其中,32B模型适用于高性能场景,14B模型平衡性能与资源消耗,7B模型则适合资源受限环境。32B模型还推出指令微调版本,兼容多种主流框架。在LiveCodeBench基准测试中,OCR模型全面超越OpenAI的o3-Mini和o1(low)模型,展现了强大的代码推理能力。该成果得益于英伟达定制的高质量OCR数据集,聚焦指令遵循、推理及多步骤问题解决能力。
原文链接
通用端到端OCR模型GOT开源,挑战多模态大模型的优越性。Vary团队通过实验展示了GOT在多种场景下的强大能力,包括PDF图像转Markdown、双栏文本感知、自然场景及细粒度OCR、动态分辨率OCR和多页OCR等。
虽然GOT表现优秀,但仍存在局限性,如多语言支持、复杂几何图形和图表上的OCR性...
原文链接
加载更多

暂无内容