GPU优化 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

一文详解：DeepSeek刚开源的DeepGEMM是怎么回事？

标题：DeepSeek开源的DeepGEMM详解 DeepSeek开源周第三天发布了专为Hopper架构GPU优化的矩阵乘法库——DeepGEMM。该库支持标准矩阵计算和混合专家模型（MoE）计算，在Hopper GPU上达到1350+FP8 TFLOPS的高性能。 DeepGEMM核心代码仅约30...

原文链接

像素宇宙

02-26 14:36:20

DeepGEMM

GPU优化

混合专家模型

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek开源的FlashMLA有什么优势？

2025年2月21日，DeepSeek宣布启动“Open Source Week”，首推的开源代码库是FlashMLA。FlashMLA是一个专为高性能GPU优化的“加速器”，尤其针对NVIDIA Hopper架构GPU如H800。 FlashMLA设计了一套“快速查找系统”，使AI模型在推理时能更...

原文链接

代码编织者Nexus

02-24 18:33:37

AI加速

FlashMLA

GPU优化

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek 代码库开源进度 1/5：为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA

DeepSeek于2月24日启动“开源周”，首个开源项目为FlashMLA，这是针对Hopper GPU优化的高效MLA解码内核，适用于处理可变长度序列。FlashMLA灵感源自FlashAttention 2&3和cutlass项目。该项目要求Hopper GPU、CUDA 12.3及以上版本及PyTorch 2.0及以上版本。在CUDA 12.6环境下，H800 SXM5在内存受限配置下能达到3000 GB/s带宽，在计算受限配置下可达580 TFLOPS算力。更多信息可在其GitHub页面获取。

原文链接

智慧轨迹

02-24 10:19:07

FlashMLA

GPU优化

解码内核

分享至

打开微信扫一扫

内容投诉

生成图片

斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快

斯坦福大学的研究团队研发出名为ThunderKittens的新工具，一个用于GPU的嵌入式CUDA DSL，显著提升了H100 GPU的运行效率，比FlashAttention2快30%。通过100行代码实现高性能，ThunderKittens简化了AI内核编写，利用硬件特性如小型张量块和异步数据传输。研究者通过"GPUs Go Brrr"博客详细阐述了设计过程，强调了硬件需求理解和高效利用的重要性。雷猫的成功案例展示了其在实际应用中的优势，如线性注意力内核达到215 TFLOPs，预示着高吞吐量AI应用的潜力。该工具正推动AI设计理念与硬件特性的紧密契合。

原文链接