1月21日,DeepSeek在GitHub更新deepseek-ai/FlashMLA仓库,新增一个未公开模型架构标识“MODEL1”,被提及31次。MODEL1是DeepSeek FlashMLA支持的两大核心模型之一,另一为DeepSeek-V3.2。推测MODEL1为高效推理模型,内存占用低于V3.2,适合边缘设备或成本敏感场景,也可能针对16K+长序列优化,适用于文档理解、代码分析等任务。此次更新涉及114个代码文件,涵盖多种格式。(腾讯科技)
原文链接
本文链接:https://kx.umi6.com/article/31958.html
转载请注明文章出处
相关推荐
换一换
在史上最大规模WAIC中寻找DeepSeek
2025-07-28 09:10:59
DeepSeek发布新论文提出更为高效的AI开发方法
2026-01-02 18:32:56
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
黄仁勋:DeepSeek、阿里、腾讯推动AI创新
2025-07-16 16:08:35
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
2025-09-29 19:13:01
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
2025-08-24 11:14:54
「DeepSeek们」回答位变广告位
2025-08-05 15:15:26
淘宝上卖9块9的DeepSeek,让我看到了被折叠的魔幻世界
2025-09-16 12:10:49
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
2025-07-08 14:44:52
DeepSeek官方点赞元宝,罕见现身互动
2025-12-24 17:46:41
DeepSeek等开源模型,更“浪费”token吗?
2025-10-11 10:17:13
人民呼唤DeepSeek!
2025-07-16 12:02:16
DeepSeek大量招人,该梁文锋上场了
2026-01-16 15:41:13
664 文章
432130 浏览
24小时热文
更多
-
2026-01-21 12:08:12 -
2026-01-21 12:07:14 -
2026-01-21 12:07:04