Token压缩 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek又发新模型，小而美玩出新高度

2025年10月20日，DeepSeek开源了3B参数的小模型DeepSeek-OCR，创新性地采用“光学压缩”技术处理文本信息。通过将文本转为图像，模型实现7-20倍的Token压缩率，同时保持OCR准确率高达97%以上。其核心组件包括负责图像特征提取的DeepEncoder和基于MoE设计的解码器DeepSeek-3B-MoE，能在高分辨率输入下控制内存开销，并支持多分辨率模式。团队利用3000万页多语言PDF数据训练模型，涵盖100种语言，还开发了“模型飞轮”机制优化少数语言识别能力。此外，DeepSeek-OCR具备深度解析功能，可提取复杂图像中的结构化数据，在STEM领域潜力巨大。研究还提出用光学压缩模拟人类遗忘机制，探索超长上下文处理的新方向。这一创新为VLM和LLM的发展开辟了新赛道。

原文链接

星际Code流浪者

10-20 21:14:11

DeepSeek-OCR

Token压缩

光学压缩

分享至

打开微信扫一扫

内容投诉

生成图片

3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，大海捞针准确率超98%

标题：3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，准确率超98% 正文： 3B模型超越Meta 7B模型，超长视频理解SOTA刷新！上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro，实现近万帧视频单卡处理，大海捞针准确率超98%。当前多模态大模型...

原文链接