2月26日,DeepSeek开源项目进展至第3/5阶段,推出支持稠密和混合专家模型(MoE)的FP8矩阵乘法(GEMM)库DeepGEMM,适用于V3/R1模型的训练和推理。DeepGEMM在Hopper GPU上可达1350+ FP8 TFLOPS性能,无复杂依赖,核心代码仅约300行。该库基于CUDA编写,采用即时编译技术(JIT),支持稠密布局和两种MoE布局。DeepGEMM设计简洁,性能与专家优化库相当,甚至更优。更多信息:
原文链接
本文链接:https://kx.umi6.com/article/14346.html
转载请注明文章出处
相关推荐
换一换
开源Agent模型榜第一名,现在是阿里通义DeepResearch
2025-09-18 15:54:31
业界首个,腾讯混元 3D 世界模型正式发布并开源
2025-07-27 11:55:13
阶跃星辰全面开源 Step 3.5 Flash:预训练+训练框架全放出 冲上 OpenClaw Top2
2026-03-04 10:34:06
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
2025-07-28 10:09:36
智谱GLM-4.7-Flash正式发布并开源
2026-01-20 08:45:53
马斯克背叛理想
2025-08-24 22:18:31
小米全面开源具身大模型MiMo-Embodied
2025-11-21 21:43:50
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布
2026-03-05 19:45:14
大厂AI各走「开源」路
2025-10-17 09:09:57
“会操作手机的 AI”,智谱开源 AI Agent 模型 AutoGLM
2025-12-09 10:29:51
腾讯混元推出并开源“混元图像 3.0”,官方称效果能对标业界头部闭源模型
2025-09-28 12:53:03
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
2025-12-16 09:28:45
群核科技发布空间大模型,或解决视频生成时空一致性难题
2025-08-26 14:47:34
677 文章
481848 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43