12月26日,国产大模型DeepSeek推出DeepSeek-V3,这是一个采用混合专家(Mixture-of-Experts, MoE)架构的强大语言模型,拥有671B的MoE和37B的激活参数,在14.8万亿个高质量token上预训练。
DeepSeek-V3的训练时间仅为2.788M H800 GPU小时,相比Llama 3系列所需的3930万H100 GPU小时,能训练十五次。如果按H800 GPU每小时租金2美元计算,其总训练成本为557.6万美元。
技术报告显示,DeepSeek-V3在多个基准测试中表现出色,尤其在数学和编程方面超越了GPT-4和Claude 3.5。尽管在某些语言理解和软件工程任务中稍显逊色,但它依然是顶尖选手之一。DeepSeek-V3的成功归功于Multi-head Latent Attention (MLA)架构和MoE架构,以及辅助损失自由负载平衡策略和多token预测训练目标。
此外,DeepSeek-V3在英语、编程、数学、中文及多语言基准测试中均表现出色。DeepSeek-V3的开源也引发了广泛关注,众多用户对其性能表示赞赏。
DeepSeek是一家由幻方量化支持的创新型科技公司,专注于开发先进的人工智能技术。
原文链接
本文链接:https://kx.umi6.com/article/10897.html
转载请注明文章出处
相关推荐
换一换
百度智能云宣布上线DeepSeek-R1/V3
2025-02-03 20:16:14
登顶开源大模型榜首 阿里Qwen3成色如何?|聚焦
2025-05-01 20:35:17
爆火的DeepSeek-V3强在哪?
2024-12-29 15:55:20
免费的「网页版Cursor」!新版DeepSeek-V3加持,秒秒钟编出APP
2025-04-01 13:26:23
DeepSeek全尺寸模型上线阿里云百炼
2025-02-09 14:48:13
DeepSeek-V3模型更新,各项能力全面进阶
2025-03-25 23:21:40
阶跃星辰与吉利联合开源,多模态实力领跑开源大模型
2025-02-18 10:15:09
DeepSeek-V3:美国芯片封锁的“意外”产物?
2025-01-06 10:21:20
大模型性价比之王来了!训练2个月、花费558万美元 性能匹敌GPT-4o
2024-12-27 14:07:00
阿里研究院:DeepSeek是对开源大模型价值的强有力支持
2025-03-10 18:56:59
DeepSeek又更新了!化身更强AI设计师、程序员 比肩全球最强代码生成器?
2025-03-25 09:48:08
梁文锋署名DeepSeek新论文:公开V3大模型降本方法
2025-05-16 13:44:22
DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶
2025-03-25 22:18:23
672 文章
465059 浏览
24小时热文
更多
-
2026-02-26 04:21:05 -
2026-02-26 03:15:54 -
2026-02-26 01:06:54