DeepSeek 团队开源新模型 DeepSeek-OCR：少量视觉 token 完成海量文本压缩

2025-10-20 17:10:44

Journeyman

发布在

快讯

阅读：1014

10月20日，DeepSeek-AI团队发布论文《DeepSeek-OCR：Contexts Optical Compression》，提出利用视觉模态压缩长文本上下文的新方法，并开源模型DeepSeek-OCR。该模型由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成，参数量为3B。DeepEncoder在高分辨率输入下保持低计算激活，同时实现高压缩比。实验显示，在文本token数量不超过视觉token的10倍时，OCR精度可达97%；即使压缩比达20×，准确率仍约60%。在OmniDocBench测试中，使用100个视觉token即可超越GOT-OCR2.0，不到800个视觉token优于MinerU2.0。实际生产中，单块A100-40G显卡每天可生成超20万页训练数据。项目已在GitHub和Hugging Face开源。

原文链接

本文链接：https://kx.umi6.com/article/26977.html

转载请注明文章出处

DeepSeek-OCR