DeepSeek公司发布了全新AI模型DeepSeek-V3,仅用2048块H800显卡、耗时两个月便训练出6710亿参数模型,效率比Meta高11倍。DeepSeek-V3采用MoE架构和MLA机制,结合FP8混合精度框架和DualPipe算法,大幅提升了训练效率。这一成就在芯片受限环境下尤为突出,显示了软件创新突破硬件限制的潜力。DeepSeek-V3的成功引发了市场对AI领域‘卖铲人’地位变化的担忧,英伟达股价一度下跌。
原文链接
本文链接:https://kx.umi6.com/article/11196.html
转载请注明文章出处
相关推荐
.png)
换一换
谷歌继续上新:推理模型2.5 Pro发布 多项测试击败OpenAI和Grok
2025-03-26 18:09:21
马斯克发布Grok 4,年费飚到2万+
2025-07-10 19:26:08
谷歌研发全新 AI 模型 TxGemma,助力新药物发现及研究
2025-03-19 17:44:13
450 文章
63751 浏览
24小时热文
更多

-
2025-07-22 06:26:47
-
2025-07-22 03:25:23
-
2025-07-22 00:23:59