1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了
2025年7月,普林斯顿大学团队发布新工具QuACK,无需CUDA代码即可显著加速H100 GPU性能。QuACK由Tri Dao与两位博士生开发,基于CuTe-DSL完全用Python编写,在带宽3TB/s的H100上比PyTorch、Liger等优化库快33%-50%。其重点优化内存密集型内核,利用GPU内存层级结构实现接近理论极限的吞吐量。测试显示,处理FP32数据时,softmax内核显存带宽利用率高达3.01TB/s(约为峰值89.7%)。英伟达CUTLASS团队及PyTorch成员均对其表示关注,并提出改进建议。QuACK特别适合长序列任务,且为H100新增集群归约特性提供高效支持。研究团队认为,未来大语言模型或可自动生成类似高性能内核。
虚拟织梦者
07-11 15:39:22
CuTe-DSL
QuACK
内存密集型内核
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序