
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
斯坦福大学的研究团队研发出名为ThunderKittens的新工具,一个用于GPU的嵌入式CUDA DSL,显著提升了H100 GPU的运行效率,比FlashAttention2快30%。通过100行代码实现高性能,ThunderKittens简化了AI内核编写,利用硬件特性如小型张量块和异步数据传输。研究者通过"GPUs Go Brrr"博客详细阐述了设计过程,强调了硬件需求理解和高效利用的重要性。雷猫的成功案例展示了其在实际应用中的优势,如线性注意力内核达到215 TFLOPs,预示着高吞吐量AI应用的潜力。该工具正推动AI设计理念与硬件特性的紧密契合。
原文链接
加载更多

暂无内容