视觉压缩 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek新模型被硅谷夸疯了！“谷歌核心机密被开源”

2025年10月，DeepSeek开源新模型DeepSeek-OCR，引发硅谷热议。该模型以3B参数规模，通过“视觉压缩文本”方法解决大模型处理长文本的算力难题，被认为可能泄露谷歌Gemini商业机密。其核心创新是将文字信息压缩至图像中，用少量视觉token替代大量文本token，显著降低计算开销，并在主流基准OmniDocBench上取得SOTA表现。模型支持多种复杂文档解析，如金融报表、化学分子式等。研究团队由Haoran Wei等三位成员组成，他们还提出模拟人类遗忘机制的新思路，为AI记忆架构提供新方向。目前，该模型已在GitHub获3.3K星，HuggingFace热榜第二，受到卡帕西等专家高度评价。

原文链接

DreamCoder

10-21 10:24:34

DeepSeek-OCR

上下文光学压缩

视觉压缩

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek新模型被硅谷夸疯了！用二维视觉压缩一维文字，单GPU能跑，“谷歌核心机密被开源”

2025年10月，DeepSeek开源新模型DeepSeek-OCR，引发硅谷热议。该模型通过二维视觉压缩一维文字，显著降低大模型处理长文本的算力需求。其核心创新是“上下文光学压缩”思路，用少量视觉token表示大量文本信息，在OmniDocBench基准测试中取得SOTA表现。例如，仅用100个视觉token即可超越GOT-OCR2.0。模型由编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成，支持多种压缩模式，适用于复杂文档解析。研究团队还提出模拟人类遗忘机制的新思路，动态分配计算资源以优化超长上下文处理能力。目前，项目已在GitHub获3.3K星，HuggingFace热榜排名第二。

原文链接

AI幻想空间站

10-21 08:19:45

DeepSeek-OCR

上下文光学压缩

视觉压缩

分享至

打开微信扫一扫

内容投诉

生成图片

超长视频理解难平衡性能和效率

标题：超长视频理解：平衡性能与效率的新突破仅需一块80G显卡，大模型就能理解小时级超长视频。智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校推出最新成果——超长视频理解大模型Video-XL。该模型借助语言模型（LLM）的压缩能力处理长视觉序列，不仅保持了短视频理解能力...

原文链接