综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年10月20日,DeepSeek开源了3B参数的小模型DeepSeek-OCR,创新性地采用“光学压缩”技术处理文本信息。通过将文本转为图像,模型实现7-20倍的Token压缩率,同时保持OCR准确率高达97%以上。其核心组件包括负责图像特征提取的DeepEncoder和基于MoE设计的解码器DeepSeek-3B-MoE,能在高分辨率输入下控制内存开销,并支持多分辨率模式。团队利用3000万页多语言PDF数据训练模型,涵盖100种语言,还开发了“模型飞轮”机制优化少数语言识别能力。此外,DeepSeek-OCR具备深度解析功能,可提取复杂图像中的结构化数据,在STEM领域潜力巨大。研究还提出用光学压缩模拟人类遗忘机制,探索超长上下文处理的新方向。这一创新为VLM和LLM的发展开辟了新赛道。
原文链接
标题:3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,准确率超98%
正文:
3B模型超越Meta 7B模型,超长视频理解SOTA刷新!上海交通大学、北京智源研究院和特伦托大学联合推出的Video-XL-Pro,实现近万帧视频单卡处理,大海捞针准确率超98%。
当前多模态大模型...
原文链接
加载更多
暂无内容