2025年7月,普林斯顿大学团队发布新工具QuACK,无需CUDA代码即可显著加速H100 GPU性能。QuACK由Tri Dao与两位博士生开发,基于CuTe-DSL完全用Python编写,在带宽3TB/s的H100上比PyTorch、Liger等优化库快33%-50%。其重点优化内存密集型内核,利用GPU内存层级结构实现接近理论极限的吞吐量。测试显示,处理FP32数据时,softmax内核显存带宽利用率高达3.01TB/s(约为峰值89.7%)。英伟达CUTLASS团队及PyTorch成员均对其表示关注,并提出改进建议。QuACK特别适合长序列任务,且为H100新增集群归约特性提供高效支持。研究团队认为,未来大语言模型或可自动生成类似高性能内核。
原文链接
本文链接:https://kx.umi6.com/article/21591.html
转载请注明文章出处
相关推荐
换一换
无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了
2025-07-11 15:39:22
无惧加码还是箭难回头?消息称软银已批准对OpenAI追加225亿美元投资
2025-10-27 11:59:16
李开复任命三位新高管:零一万物的“一把手工程”与大模型中场战事
2025-10-27 13:00:52
第三届中国航空运输协会航空大会开幕 近百项人工智能科技及产品亮相
2025-10-25 16:32:54
近2000只公募基金第三季度合计实现利润1013亿元
2025-10-27 07:50:29
科创板ETF目前已达105只 总规模3000亿元
2025-10-27 16:13:33
女子用AI做流浪汉闯入家中照片骗老公 官方提醒:可能犯法
2025-10-26 09:02:15
沙特人工智能公司Humain与高通宣布将在沙特部署先进的人工智能基础设施
2025-10-27 22:20:44
万亿分之一秒的“光技术”,正在颠覆三维芯片、AI计算和癌症早筛
2025-10-27 16:11:10
研究称 AI 模型或将形成自己的“生存驱动力”,避免被人类关闭命运
2025-10-27 08:48:45
比尔盖茨女儿也AI创业了!时尚电商,刚被塞了800万美元投资
2025-10-27 18:10:21
火山引擎上线豆包视频生成模型 1.0profast:5 秒 720P 内容仅需 10 秒完成
2025-10-27 16:08:48
OpenAI被曝瞄准AI音乐赛道商业化,Suno首当其冲
2025-10-26 13:13:50
523 文章
246592 浏览
24小时热文
更多
-
2025-10-28 08:39:45 -
2025-10-28 08:39:40 -
2025-10-28 08:38:40