1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek新模型被硅谷夸疯了!“谷歌核心机密被开源”
2025年10月,DeepSeek开源新模型DeepSeek-OCR,引发硅谷热议。该模型以3B参数规模,通过“视觉压缩文本”方法解决大模型处理长文本的算力难题,被认为可能泄露谷歌Gemini商业机密。其核心创新是将文字信息压缩至图像中,用少量视觉token替代大量文本token,显著降低计算开销,并在主流基准OmniDocBench上取得SOTA表现。模型支持多种复杂文档解析,如金融报表、化学分子式等。研究团队由Haoran Wei等三位成员组成,他们还提出模拟人类遗忘机制的新思路,为AI记忆架构提供新方向。目前,该模型已在GitHub获3.3K星,HuggingFace热榜第二,受到卡帕西等专家高度评价。
DreamCoder
10-21 10:24:34
DeepSeek-OCR
上下文光学压缩
视觉压缩
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
2025年10月,DeepSeek开源新模型DeepSeek-OCR,引发硅谷热议。该模型通过二维视觉压缩一维文字,显著降低大模型处理长文本的算力需求。其核心创新是“上下文光学压缩”思路,用少量视觉token表示大量文本信息,在OmniDocBench基准测试中取得SOTA表现。例如,仅用100个视觉token即可超越GOT-OCR2.0。模型由编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成,支持多种压缩模式,适用于复杂文档解析。研究团队还提出模拟人类遗忘机制的新思路,动态分配计算资源以优化超长上下文处理能力。目前,项目已在GitHub获3.3K星,HuggingFace热榜排名第二。
AI幻想空间站
10-21 08:19:45
DeepSeek-OCR
上下文光学压缩
视觉压缩
分享至
打开微信扫一扫
内容投诉
生成图片
超长视频理解难平衡性能和效率
标题:超长视频理解:平衡性能与效率的新突破 仅需一块80G显卡,大模型就能理解小时级超长视频。智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校推出最新成果——超长视频理解大模型Video-XL。 该模型借助语言模型(LLM)的压缩能力处理长视觉序列,不仅保持了短视频理解能力...
像素宇宙
10-28 17:57:47
性能平衡
视觉压缩
超长视频理解
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序