1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:国产之光DeepSeek惊艳亮相,671B大模型训练仅需此前算力1/10,细节全公开

DeepSeek V3正式发布,延续“便宜大碗”的特点且完全开源。该模型参数量达671B,激活37B,在14.8T高质量token上预训练。在多项测评中,DeepSeek V3超越Llama 3.1 405B,与GPT-4o、Claude 3.5 Sonnet等模型匹敌,价格仅为Claude 3.5 Sonnet的9%。

DeepSeek V3训练耗时不到280万个GPU小时,而Llama 3 405B需3080万GPU小时。训练671B的DeepSeek V3成本为557.6万美元,而7B的Llama 2需76万美元。OpenAI创始成员Karpathy称赞其在有限算力下训练效率高,Meta科学家田渊栋惊叹其为“黑科技”。

新模型生成速度提升3倍,API价格大幅降低。DeepSeek V3在实测中表现优异,准确回答了关于自身版本的问题,超越其他模型。此外,DeepSeek V3支持FP8权重和BF16推理,现已开放使用。

贾扬清透露,DeepSeek团队早在2019年就具备相关技术,成就源于多年专业知识。

原文链接
本文链接:https://kx.umi6.com/article/10847.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
远超摩尔定律!AI模型每7个月能力翻倍 美国智库:或瓦解民主制度
2025-07-06 16:15:29
当DeepSeek都认为“DeepSeek向王一博道歉”了
2025-07-04 12:43:36
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
2025-06-03 17:01:06
24小时热文
更多
扫一扫体验小程序