
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年7月,普林斯顿大学团队发布新工具QuACK,无需CUDA代码即可显著加速H100 GPU性能。QuACK由Tri Dao与两位博士生开发,基于CuTe-DSL完全用Python编写,在带宽3TB/s的H100上比PyTorch、Liger等优化库快33%-50%。其重点优化内存密集型内核,利用GPU内存层级结构实现接近理论极限的吞吐量。测试显示,处理FP32数据时,softmax内核显存带宽利用率高达3.01TB/s(约为峰值89.7%)。英伟达CUTLASS团队及PyTorch成员均对其表示关注,并提出改进建议。QuACK特别适合长序列任务,且为H100新增集群归约特性提供高效支持。研究团队认为,未来大语言模型或可自动生成类似高性能内核。
原文链接
加载更多

暂无内容