2月26日,DeepSeek开源项目进展至第3/5阶段,推出支持稠密和混合专家模型(MoE)的FP8矩阵乘法(GEMM)库DeepGEMM,适用于V3/R1模型的训练和推理。DeepGEMM在Hopper GPU上可达1350+ FP8 TFLOPS性能,无复杂依赖,核心代码仅约300行。该库基于CUDA编写,采用即时编译技术(JIT),支持稠密布局和两种MoE布局。DeepGEMM设计简洁,性能与专家优化库相当,甚至更优。更多信息:
原文链接
本文链接:https://kx.umi6.com/article/14346.html
转载请注明文章出处
相关推荐
换一换
睿尔曼开源全球首个高质量、模态数量最多的真机数据集
2025-11-24 20:12:19
开源版Genie3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
2025-08-19 10:59:13
小米开源首个原生端到端语音大模型
2025-09-19 10:10:03
智谱GLM-4.7-Flash正式发布并开源
2026-01-20 08:45:53
智谱 GLM-4.7-Flash 模型发布并开源,可免费调用
2026-01-20 09:47:20
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
2025-11-11 18:20:16
超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线
2025-10-15 13:33:22
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
2025-12-16 09:28:45
华为昇腾 0Day 支持 DeepSeek-V3.2-Exp,面向开发者开源所有推理代码和算子实现
2025-09-29 20:14:51
英伟达开源 9B 参数 AI 小模型 Nemotron Nano v2,比 Qwen3 快 6 倍
2025-08-19 15:01:14
DeepSeek昨天开源的新模型,有点邪门
2025-10-22 10:42:03
阿里云创始人王坚:人工智能时代将带来“计算卫星”
2025-09-11 15:59:12
腾讯智能体开源大动作!关键技术都拿出来了,开发平台还全面升级
2025-09-22 12:58:11
653 文章
430442 浏览
24小时热文
更多
-
2026-01-23 11:53:08 -
2026-01-23 11:52:03 -
2026-01-23 11:50:59