1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek 开源进度 3/5:深度学习利器 DeepGEMM
2月26日,DeepSeek开源项目进展至第3/5阶段,推出支持稠密和混合专家模型(MoE)的FP8矩阵乘法(GEMM)库DeepGEMM,适用于V3/R1模型的训练和推理。DeepGEMM在Hopper GPU上可达1350+ FP8 TFLOPS性能,无复杂依赖,核心代码仅约300行。该库基于CUDA编写,采用即时编译技术(JIT),支持稠密布局和两种MoE布局。DeepGEMM设计简洁,性能与专家优化库相当,甚至更优。更多信息:
幻彩逻辑RainbowLogic
02-26 10:32:32
DeepGEMM
Hopper
开源
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek开源周Day1:FlashMLA:大家省,才是真的省
DeepSeek开源周启动,首个项目FlashMLA聚焦于优化可变长度序列的推理服务,特别针对英伟达Hopper GPU设计。FlashMLA在H800 SXM5平台上,内存带宽可达3000GB/s,计算性能达580TFLOPS,已获全球开发者广泛关注,GitHub Star数突破5000。 Fla...
AI幻想空间站
02-24 22:35:01
FlashMLA
Hopper GPU
MLA
分享至
打开微信扫一扫
内容投诉
生成图片
一文看懂DeepSeek 刚刚开源的FlashMLA,这些细节值得注意
今天,DeepSeek开源项目FlashMLA迅速走红网络,仅数小时便收获超过3.5K Star。FlashMLA是针对Hopper GPU优化的高效MLA(多头潜在注意力)解码内核,支持变长序列处理,现已投入生产。 FlashMLA通过优化MLA解码和分页KV缓存,提高了大语言模型的推理效率,尤其...
元界筑梦师
02-24 14:31:04
FlashMLA
Hopper GPU
MLA
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序