10月20日,DeepSeek-AI团队发布论文《DeepSeek-OCR:Contexts Optical Compression》,提出利用视觉模态压缩长文本上下文的新方法,并开源模型DeepSeek-OCR。该模型由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成,参数量为3B。DeepEncoder在高分辨率输入下保持低计算激活,同时实现高压缩比。实验显示,在文本token数量不超过视觉token的10倍时,OCR精度可达97%;即使压缩比达20×,准确率仍约60%。在OmniDocBench测试中,使用100个视觉token即可超越GOT-OCR2.0,不到800个视觉token优于MinerU2.0。实际生产中,单块A100-40G显卡每天可生成超20万页训练数据。项目已在GitHub和Hugging Face开源。
原文链接
本文链接:https://kx.umi6.com/article/26977.html
转载请注明文章出处
相关推荐
换一换
DeepSeek又发新模型,小而美玩出新高度
2025-10-20 21:14:11
DeepSeek昨天开源的新模型,有点邪门
2025-10-22 10:42:03
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
2025-10-21 08:19:45
DeepSeek 团队开源新模型 DeepSeek-OCR:少量视觉 token 完成海量文本压缩
2025-10-20 17:10:44
DeepSeek新模型被硅谷夸疯了!“谷歌核心机密被开源”
2025-10-21 10:24:34
阴和俊:在量子科技等领域布局建设未来产业 加强对国家重大科技任务和科技型企业的金融支持
2025-12-08 10:23:04
英伟达巧用8B模型秒掉GPT-5,开源了
2025-12-06 14:32:11
谷歌 DeepMind CEO 哈萨比斯:规模定律是走向通用人工智能的关键
2025-12-08 09:16:34
谷歌 Gemini 网页版更新“我的内容”文件夹,可一键访问生成的 AI 图像
2025-12-08 08:11:29
广西“十五五”规划建议:积极发展股权、债券等直接融资 支持上市公司提质
2025-12-07 10:25:53
英国拟全面推广 AI 人脸识别系统,但黑人、亚裔“极易”被误报为涉案人员
2025-12-06 16:38:53
全球最大云厂商亚马逊 AWS,将“最牛马”的工作交给了 AI Agent
2025-12-07 18:39:34
编程界“奥斯卡”百度之星决赛揭晓,上千选手激烈角逐,山东16岁中学生王茂骅夺冠!
2025-12-08 16:34:59
576 文章
345719 浏览
24小时热文
更多
-
2025-12-08 21:51:18 -
2025-12-08 21:49:12 -
2025-12-08 21:48:42