2026年4月24日,DeepSeek发布V4版本,历时484天研发。新版本实现百万token上下文全面开源,KV cache缩减至V3.2的10%,显著缓解HBM短缺问题。V4-Pro和V4-Flash分别具备1.6万亿和2840亿参数,上下文长度达1M。模型支持国产芯片华为算力,并预计适配昇腾950超节点。技术亮点包括mHC强化残差连接、混合注意力机制(CSA与HCA交替使用)、Muon优化器替代AdamW等。实验显示,V4-Pro在推理benchmark上优于GPT-5.2,接近Gemini-3.1-Pro;V4-Flash-Max以13B激活参数媲美顶级闭源模型。团队表示未来将探索更精简架构及多模态方向。此次发布强调开源与长期主义,贡献者名单涵盖已离职研究者,彰显团队协作精神。
原文链接
本文链接:https://kx.umi6.com/article/35202.html
转载请注明文章出处
相关推荐
换一换
软银拟改造工厂为数据中心生产电池
2026-04-24 11:07:51
飞书项目开放平台焕新升级,全面迈向“AI Friendly”
2026-04-23 18:20:13
英特尔CEO:CPU正重归AI核心地位
2026-04-24 11:08:56
OpenAI发布20颗HBM内存堆栈的芯片专利
2026-04-23 17:19:48
特斯拉CEO马斯克:预计未来AI芯片将严重不足
2026-04-23 11:06:01
华为DCS AI解决方案全面支持DeepSeek-V4
2026-04-25 13:15:39
联通在线申请注册呦爱机器人商标
2026-04-24 13:14:01
阶跃与腾讯云合作打造新一代 AI 座舱解决方案
2026-04-23 19:26:30
漫展误用AI元素 长虹电视道歉:立即下架重绘
2026-04-24 06:55:41
存储“超级周期”进入业绩兑现阶段
2026-04-24 06:56:46
“这些图片居然都是AI的”热搜 网友:你告诉我什么是真的!
2026-04-24 23:40:17
Gartner:阿里云稳居中国第一 份额扩大至32.8%
2026-04-24 12:09:17
国家知识产权局:将积极完善新兴领域知识产权保护制度
2026-04-23 17:20:53
769 文章
637086 浏览
24小时热文
更多
-
2026-04-25 14:17:03 -
2026-04-25 14:15:54 -
2026-04-25 13:15:39