1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek 代码库开源进度 1/5:为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA
DeepSeek于2月24日启动“开源周”,首个开源项目为FlashMLA,这是针对Hopper GPU优化的高效MLA解码内核,适用于处理可变长度序列。FlashMLA灵感源自FlashAttention 2&3和cutlass项目。该项目要求Hopper GPU、CUDA 12.3及以上版本及PyTorch 2.0及以上版本。在CUDA 12.6环境下,H800 SXM5在内存受限配置下能达到3000 GB/s带宽,在计算受限配置下可达580 TFLOPS算力。更多信息可在其GitHub页面获取。
智慧轨迹
02-24 10:19:07
FlashMLA
GPU优化
解码内核
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序