标题:国产之光DeepSeek惊艳亮相,671B大模型训练仅需此前算力1/10,细节全公开
DeepSeek V3正式发布,延续“便宜大碗”的特点且完全开源。该模型参数量达671B,激活37B,在14.8T高质量token上预训练。在多项测评中,DeepSeek V3超越Llama 3.1 405B,与GPT-4o、Claude 3.5 Sonnet等模型匹敌,价格仅为Claude 3.5 Sonnet的9%。
DeepSeek V3训练耗时不到280万个GPU小时,而Llama 3 405B需3080万GPU小时。训练671B的DeepSeek V3成本为557.6万美元,而7B的Llama 2需76万美元。OpenAI创始成员Karpathy称赞其在有限算力下训练效率高,Meta科学家田渊栋惊叹其为“黑科技”。
新模型生成速度提升3倍,API价格大幅降低。DeepSeek V3在实测中表现优异,准确回答了关于自身版本的问题,超越其他模型。此外,DeepSeek V3支持FP8权重和BF16推理,现已开放使用。
贾扬清透露,DeepSeek团队早在2019年就具备相关技术,成就源于多年专业知识。
原文链接
本文链接:https://kx.umi6.com/article/10847.html
转载请注明文章出处
相关推荐
换一换
模型免费、推理翻倍:Gemini 3 Flash 深夜炸场
2025-12-18 12:42:55
DeepSeek上线识图模式
2026-04-29 18:38:04
苹果用上了安卓AI,马斯克为啥急得跳脚?
2026-01-15 11:35:02
谁是手机里最值得留的AI?DeepSeek排第一 豆包第二
2026-05-26 23:57:37
黄仁勋新年第一场演讲提了DeepSeek 推动了整个行业变革
2026-01-06 08:54:05
DeepSeek服务恢复正常 此前崩溃约12小时
2026-03-30 10:43:55
涨价浪潮下 DeepSeek推动AI“价格战”:百万Token输入0.25元
2026-04-26 10:07:20
小米双模型正式开源!MiMo-V2.5-Pro无中断肝出“macOS”:54个应用全开、浏览器真能冲浪
2026-04-29 09:06:54
快手可灵 2.6“音画同出”模型上线,单次生成可同时产出画面、语音、环境音
2025-12-03 23:48:00
OpenAI据悉完成了新AI模型的初步开发
2026-03-25 04:57:32
微软CEO称该公司计划于周五发布新的智能体AI模型
2025-12-11 13:53:32
刚刚,让谷歌翻身的Gemini 3,上线Flash版
2025-12-18 11:42:39
智谱创始人唐杰谈 DeepSeek:很震撼,开启了“AI 做事”新范式
2026-01-12 09:23:20
707 文章
628805 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41