百万Token - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek V4报告太详尽了！484天换代之路全公开

2026年4月24日，DeepSeek发布V4版本，历时484天研发。新版本实现百万token上下文全面开源，KV cache缩减至V3.2的10%，显著缓解HBM短缺问题。V4-Pro和V4-Flash分别具备1.6万亿和2840亿参数，上下文长度达1M。模型支持国产芯片华为算力，并预计适配昇腾950超节点。技术亮点包括mHC强化残差连接、混合注意力机制（CSA与HCA交替使用）、Muon优化器替代AdamW等。实验显示，V4-Pro在推理benchmark上优于GPT-5.2，接近Gemini-3.1-Pro；V4-Flash-Max以13B激活参数媲美顶级闭源模型。团队表示未来将探索更精简架构及多模态方向。此次发布强调开源与长期主义，贡献者名单涵盖已离职研究者，彰显团队协作精神。

原文链接

新智燎原

04-25 12:10:04

分享至

打开微信扫一扫

内容投诉

生成图片

推理算力“正在耗尽”？百万Token时代来临产业打响新一轮竞逐

9月13日，AI领域焦点从模型参数增长转向推理算力需求。英伟达发布专为长上下文推理设计的Rubin CPX GPU，称其投资回报率可达50倍，远超以往产品，并在MLPerf推理基准测试中创纪录。甲骨文创始人Larry Ellison指出，AI推理市场将远大于训练市场，且推理算力正被快速耗尽。数据显示，Google、微软和字节等大厂Token调用量呈爆发式增长，行业对长上下文需求激增。东吴证券认为，Rubin CPX推出标志着算力基建进入分工协作新阶段，硬件与软件耦合度提升，GPU、存储等相关厂商有望受益。

原文链接