DeepSeek公司发布了全新AI模型DeepSeek-V3,仅用2048块H800显卡、耗时两个月便训练出6710亿参数模型,效率比Meta高11倍。DeepSeek-V3采用MoE架构和MLA机制,结合FP8混合精度框架和DualPipe算法,大幅提升了训练效率。这一成就在芯片受限环境下尤为突出,显示了软件创新突破硬件限制的潜力。DeepSeek-V3的成功引发了市场对AI领域‘卖铲人’地位变化的担忧,英伟达股价一度下跌。
原文链接
本文链接:https://kx.umi6.com/article/11196.html
转载请注明文章出处
相关推荐
.png)
换一换
谷歌发布 Gemma 3n 端侧多模态模型,2GB 内存也能玩转 AI
2025-05-21 15:08:05
力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用
2025-04-22 12:15:05
马斯克发布Grok 4,年费飚到2万+
2025-07-10 19:26:08
重新体验GPT-5后,我想它比GPT-4o 更需要一场葬礼
2025-08-11 19:06:36
Nature刊文称“AI可模拟人类心智”,Science同日强烈质疑
2025-07-21 09:14:02
o3猜照片位置深度思考6分48秒,范围精确到“这么近那么美”
2025-04-27 14:15:41
没网也能用!谷歌发布离线机器人AI模型:具备视觉识别、语言理解能力
2025-06-26 17:02:10
成人内容提供商起诉 Meta:指控其利用盗版内容训练 AI 模型
2025-07-29 18:33:38
美国法官裁定:Meta用书训练AI模型属“合理使用”范畴
2025-06-26 21:02:38
第一时间体验GPT-5,人人免费可用,马斯克表示不服
2025-08-08 06:03:18
OpenAI 新规:组织想要用未来 AI 模型需先“验明正身”
2025-04-14 08:20:45
百万小时以上地球物理数据训练 AI模型超越当前地球系统预报水平
2025-05-22 08:25:08
AI 模型 4o → o3:OpenAI 升级 Operator 智能体,浏览器交互更稳定、更准确
2025-05-24 09:54:25
507 文章
178678 浏览
24小时热文
更多

-
2025-09-10 10:35:23
-
2025-09-10 10:34:16
-
2025-09-10 10:33:09