
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek开源周启动,首个项目FlashMLA聚焦于优化可变长度序列的推理服务,特别针对英伟达Hopper GPU设计。FlashMLA在H800 SXM5平台上,内存带宽可达3000GB/s,计算性能达580TFLOPS,已获全球开发者广泛关注,GitHub Star数突破5000。
Fla...
原文链接
今天,DeepSeek开源项目FlashMLA迅速走红网络,仅数小时便收获超过3.5K Star。FlashMLA是针对Hopper GPU优化的高效MLA(多头潜在注意力)解码内核,支持变长序列处理,现已投入生产。
FlashMLA通过优化MLA解码和分页KV缓存,提高了大语言模型的推理效率,尤其...
原文链接
加载更多

暂无内容