1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek昨天开源的新模型,有点邪门
2025年10月22日,DeepSeek发布新模型DeepSeek-OCR,革新了信息存储方式。该模型通过将大量文字压缩成图片形式,实现用更少的视觉token记住更多信息,仅需100个token即可超越传统模型256个token的效果,不到800个token便击败需6000+token的竞品。DeepSeek-OCR支持多种分辨率与动态调整模式,可识别并存储图片中的表格、分子结构等复杂数据,同时保留图片位置及上下文信息。此外,模型大幅降低计算资源消耗,以1/10的token数量保持96.5%的准确率,并引入类似人类遗忘机制的分级存储方式。研究基于华为、百度、Meta及OpenAI等开源成果,展现了全球协作的力量。目前,DeepSeek-OCR已开源,未来应用前景广阔。
代码编织者
10-22 10:42:03
DeepSeek-OCR
图像记忆
开源
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek新模型被硅谷夸疯了!“谷歌核心机密被开源”
2025年10月,DeepSeek开源新模型DeepSeek-OCR,引发硅谷热议。该模型以3B参数规模,通过“视觉压缩文本”方法解决大模型处理长文本的算力难题,被认为可能泄露谷歌Gemini商业机密。其核心创新是将文字信息压缩至图像中,用少量视觉token替代大量文本token,显著降低计算开销,并在主流基准OmniDocBench上取得SOTA表现。模型支持多种复杂文档解析,如金融报表、化学分子式等。研究团队由Haoran Wei等三位成员组成,他们还提出模拟人类遗忘机制的新思路,为AI记忆架构提供新方向。目前,该模型已在GitHub获3.3K星,HuggingFace热榜第二,受到卡帕西等专家高度评价。
DreamCoder
10-21 10:24:34
DeepSeek-OCR
上下文光学压缩
视觉压缩
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
2025年10月,DeepSeek开源新模型DeepSeek-OCR,引发硅谷热议。该模型通过二维视觉压缩一维文字,显著降低大模型处理长文本的算力需求。其核心创新是“上下文光学压缩”思路,用少量视觉token表示大量文本信息,在OmniDocBench基准测试中取得SOTA表现。例如,仅用100个视觉token即可超越GOT-OCR2.0。模型由编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成,支持多种压缩模式,适用于复杂文档解析。研究团队还提出模拟人类遗忘机制的新思路,动态分配计算资源以优化超长上下文处理能力。目前,项目已在GitHub获3.3K星,HuggingFace热榜排名第二。
AI幻想空间站
10-21 08:19:45
DeepSeek-OCR
上下文光学压缩
视觉压缩
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek又发新模型,小而美玩出新高度
2025年10月20日,DeepSeek开源了3B参数的小模型DeepSeek-OCR,创新性地采用“光学压缩”技术处理文本信息。通过将文本转为图像,模型实现7-20倍的Token压缩率,同时保持OCR准确率高达97%以上。其核心组件包括负责图像特征提取的DeepEncoder和基于MoE设计的解码器DeepSeek-3B-MoE,能在高分辨率输入下控制内存开销,并支持多分辨率模式。团队利用3000万页多语言PDF数据训练模型,涵盖100种语言,还开发了“模型飞轮”机制优化少数语言识别能力。此外,DeepSeek-OCR具备深度解析功能,可提取复杂图像中的结构化数据,在STEM领域潜力巨大。研究还提出用光学压缩模拟人类遗忘机制,探索超长上下文处理的新方向。这一创新为VLM和LLM的发展开辟了新赛道。
星际Code流浪者
10-20 21:14:11
DeepSeek-OCR
Token压缩
光学压缩
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek 团队开源新模型 DeepSeek-OCR:少量视觉 token 完成海量文本压缩
10月20日,DeepSeek-AI团队发布论文《DeepSeek-OCR:Contexts Optical Compression》,提出利用视觉模态压缩长文本上下文的新方法,并开源模型DeepSeek-OCR。该模型由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成,参数量为3B。DeepEncoder在高分辨率输入下保持低计算激活,同时实现高压缩比。实验显示,在文本token数量不超过视觉token的10倍时,OCR精度可达97%;即使压缩比达20×,准确率仍约60%。在OmniDocBench测试中,使用100个视觉token即可超越GOT-OCR2.0,不到800个视觉token优于MinerU2.0。实际生产中,单块A100-40G显卡每天可生成超20万页训练数据。项目已在GitHub和Hugging Face开源。
Journeyman
10-20 17:10:44
DeepSeek-OCR
文本压缩
视觉 token
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序