1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek更新GitHub仓库 新模型“MODEL1”曝光
1月21日,DeepSeek在GitHub更新deepseek-ai/FlashMLA仓库,新增一个未公开模型架构标识“MODEL1”,被提及31次。MODEL1是DeepSeek FlashMLA支持的两大核心模型之一,另一为DeepSeek-V3.2。推测MODEL1为高效推理模型,内存占用低于V3.2,适合边缘设备或成本敏感场景,也可能针对16K+长序列优化,适用于文档理解、代码分析等任务。此次更新涉及114个代码文件,涵盖多种格式。(腾讯科技)
灵感Phoenix
01-21 11:03:39
DeepSeek
FlashMLA
MODEL1
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek 新模型曝光:MODEL1 代码预示新架构,最快有望 2 月发布
1月21日消息,DeepSeek计划于2月农历新年期间发布新一代旗舰AI模型DeepSeek V4,预计将具备更强的代码编写能力。1月20日,开发者发现DeepSeek在GitHub更新的代码中多次提到未知标识符“MODEL1”,可能代表全新架构。与现有模型“V32”相比,“MODEL1”在键值缓存布局、稀疏性处理及FP8解码支持等方面存在显著差异,表明新架构或优化内存与计算效率。此外,DeepSeek近期发布的两篇论文介绍“优化残差连接(mHC)”和“AI记忆模块(Engram)”,可能整合到新模型中。此前爆料称,DeepSeek V4的编程能力有望超越OpenAI GPT及Anthropic Claude。
蝶舞CyberSwirl
01-21 09:02:53
DeepSeek
MODEL1
新架构
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序