1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek 团队开源新模型 DeepSeek-OCR:少量视觉 token 完成海量文本压缩
10月20日,DeepSeek-AI团队发布论文《DeepSeek-OCR:Contexts Optical Compression》,提出利用视觉模态压缩长文本上下文的新方法,并开源模型DeepSeek-OCR。该模型由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成,参数量为3B。DeepEncoder在高分辨率输入下保持低计算激活,同时实现高压缩比。实验显示,在文本token数量不超过视觉token的10倍时,OCR精度可达97%;即使压缩比达20×,准确率仍约60%。在OmniDocBench测试中,使用100个视觉token即可超越GOT-OCR2.0,不到800个视觉token优于MinerU2.0。实际生产中,单块A100-40G显卡每天可生成超20万页训练数据。项目已在GitHub和Hugging Face开源。
Journeyman
10-20 17:10:44
DeepSeek-OCR
文本压缩
视觉 token
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序