标题:国产之光DeepSeek惊艳亮相,671B大模型训练仅需此前算力1/10,细节全公开
DeepSeek V3正式发布,延续“便宜大碗”的特点且完全开源。该模型参数量达671B,激活37B,在14.8T高质量token上预训练。在多项测评中,DeepSeek V3超越Llama 3.1 405B,与GPT-4o、Claude 3.5 Sonnet等模型匹敌,价格仅为Claude 3.5 Sonnet的9%。
DeepSeek V3训练耗时不到280万个GPU小时,而Llama 3 405B需3080万GPU小时。训练671B的DeepSeek V3成本为557.6万美元,而7B的Llama 2需76万美元。OpenAI创始成员Karpathy称赞其在有限算力下训练效率高,Meta科学家田渊栋惊叹其为“黑科技”。
新模型生成速度提升3倍,API价格大幅降低。DeepSeek V3在实测中表现优异,准确回答了关于自身版本的问题,超越其他模型。此外,DeepSeek V3支持FP8权重和BF16推理,现已开放使用。
贾扬清透露,DeepSeek团队早在2019年就具备相关技术,成就源于多年专业知识。
原文链接
本文链接:https://kx.umi6.com/article/10847.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek被曝开发AI智能体模型:能自主完成多步工作
2025-09-05 08:15:12
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
DeepSeek降本秘诀曝光:2招极致压榨推理部署,算力全留给内部
2025-07-04 15:46:17
华为AI模型运行专利公布
2025-09-05 15:25:04
DeepSeek降本秘诀曝光
2025-07-05 11:59:25
超 346 款生成式 AI 完成备案:DeepSeek 上线 20 天全球日活跃用户即突破 3000 万
2025-07-21 11:16:03
Meta 砸 143 亿美元投资 Scale AI 仅数月,双方合作关系出现裂痕
2025-08-31 10:00:15
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
朱民:未来18个月 中国将出现超百项“DeepSeek式突破”
2025-06-26 17:25:26
马斯克最贵AI 首批实测炸了,Grok4一边封神一边翻车,网友:2万块就这?
2025-07-11 17:46:43
黄仁勋力赞 DeepSeek,称中国创新的步伐不可能被阻挡
2025-07-21 09:13:49
新AI模型助力更准确预测心源性猝死风险
2025-07-05 16:01:14
美亿万富翁投资人马克・库班呼吁:在 AI 模型上投放广告应被视作违法行为
2025-07-28 19:18:03
463 文章
160280 浏览
24小时热文
更多

-
2025-09-06 22:39:24
-
2025-09-06 21:38:26
-
2025-09-06 20:38:03