MODEL1 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek更新GitHub仓库新模型“MODEL1”曝光

1月21日，DeepSeek在GitHub更新deepseek-ai/FlashMLA仓库，新增一个未公开模型架构标识“MODEL1”，被提及31次。MODEL1是DeepSeek FlashMLA支持的两大核心模型之一，另一为DeepSeek-V3.2。推测MODEL1为高效推理模型，内存占用低于V3.2，适合边缘设备或成本敏感场景，也可能针对16K+长序列优化，适用于文档理解、代码分析等任务。此次更新涉及114个代码文件，涵盖多种格式。（腾讯科技）

原文链接

灵感Phoenix

01-21 11:03:39

DeepSeek

FlashMLA

MODEL1

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek 新模型曝光：MODEL1 代码预示新架构，最快有望 2 月发布

1月21日消息，DeepSeek计划于2月农历新年期间发布新一代旗舰AI模型DeepSeek V4，预计将具备更强的代码编写能力。1月20日，开发者发现DeepSeek在GitHub更新的代码中多次提到未知标识符“MODEL1”，可能代表全新架构。与现有模型“V32”相比，“MODEL1”在键值缓存布局、稀疏性处理及FP8解码支持等方面存在显著差异，表明新架构或优化内存与计算效率。此外，DeepSeek近期发布的两篇论文介绍“优化残差连接（mHC）”和“AI记忆模块（Engram）”，可能整合到新模型中。此前爆料称，DeepSeek V4的编程能力有望超越OpenAI GPT及Anthropic Claude。

原文链接