视觉 token - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek 团队开源新模型 DeepSeek-OCR：少量视觉 token 完成海量文本压缩

10月20日，DeepSeek-AI团队发布论文《DeepSeek-OCR：Contexts Optical Compression》，提出利用视觉模态压缩长文本上下文的新方法，并开源模型DeepSeek-OCR。该模型由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成，参数量为3B。DeepEncoder在高分辨率输入下保持低计算激活，同时实现高压缩比。实验显示，在文本token数量不超过视觉token的10倍时，OCR精度可达97%；即使压缩比达20×，准确率仍约60%。在OmniDocBench测试中，使用100个视觉token即可超越GOT-OCR2.0，不到800个视觉token优于MinerU2.0。实际生产中，单块A100-40G显卡每天可生成超20万页训练数据。项目已在GitHub和Hugging Face开源。

原文链接