综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月21日,DeepSeek在GitHub更新deepseek-ai/FlashMLA仓库,新增一个未公开模型架构标识“MODEL1”,被提及31次。MODEL1是DeepSeek FlashMLA支持的两大核心模型之一,另一为DeepSeek-V3.2。推测MODEL1为高效推理模型,内存占用低于V3.2,适合边缘设备或成本敏感场景,也可能针对16K+长序列优化,适用于文档理解、代码分析等任务。此次更新涉及114个代码文件,涵盖多种格式。(腾讯科技)
原文链接
1月21日消息,DeepSeek计划于2月农历新年期间发布新一代旗舰AI模型DeepSeek V4,预计将具备更强的代码编写能力。1月20日,开发者发现DeepSeek在GitHub更新的代码中多次提到未知标识符“MODEL1”,可能代表全新架构。与现有模型“V32”相比,“MODEL1”在键值缓存布局、稀疏性处理及FP8解码支持等方面存在显著差异,表明新架构或优化内存与计算效率。此外,DeepSeek近期发布的两篇论文介绍“优化残差连接(mHC)”和“AI记忆模块(Engram)”,可能整合到新模型中。此前爆料称,DeepSeek V4的编程能力有望超越OpenAI GPT及Anthropic Claude。
原文链接
加载更多
暂无内容