2月26日,DeepSeek开源项目进展至第3/5阶段,推出支持稠密和混合专家模型(MoE)的FP8矩阵乘法(GEMM)库DeepGEMM,适用于V3/R1模型的训练和推理。DeepGEMM在Hopper GPU上可达1350+ FP8 TFLOPS性能,无复杂依赖,核心代码仅约300行。该库基于CUDA编写,采用即时编译技术(JIT),支持稠密布局和两种MoE布局。DeepGEMM设计简洁,性能与专家优化库相当,甚至更优。更多信息:
原文链接
本文链接:https://kx.umi6.com/article/14346.html
转载请注明文章出处
相关推荐
换一换
老外担心中国大模型也学OpenAI闭源 智谱回应:别慌 会继续开源
2026-03-21 12:05:31
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
鏖战2025年,大模型围着开源转
2025-12-25 18:55:44
2700GB高质量数据,训出空间智能SOTA,背后秘诀全栈开源
2026-03-31 14:51:34
马斯克罕见低头:开源????推荐算法,自嘲“很烂”不过未来月更
2026-01-21 13:07:44
英伟达一口气开源多项机器人技术,与迪士尼合作的物理引擎也开源
2025-10-02 12:10:18
开源版Genie3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
2025-08-19 10:59:13
美团发布开源 LongCat-Video 视频生成模型,可稳定输出 5 分钟级内容
2025-10-27 11:55:56
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
英伟达开源9B参数小模型,比Qwen3快6倍
2025-08-19 16:03:42
低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!
2025-12-14 22:01:20
华为UCM推理记忆管理技术正式开源
2025-11-05 16:17:45
美国《连线》杂志:再见,GPT5;你好,千问!
2025-12-29 15:27:00
710 文章
569675 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38