2025年7月,普林斯顿大学团队发布新工具QuACK,无需CUDA代码即可显著加速H100 GPU性能。QuACK由Tri Dao与两位博士生开发,基于CuTe-DSL完全用Python编写,在带宽3TB/s的H100上比PyTorch、Liger等优化库快33%-50%。其重点优化内存密集型内核,利用GPU内存层级结构实现接近理论极限的吞吐量。测试显示,处理FP32数据时,softmax内核显存带宽利用率高达3.01TB/s(约为峰值89.7%)。英伟达CUTLASS团队及PyTorch成员均对其表示关注,并提出改进建议。QuACK特别适合长序列任务,且为H100新增集群归约特性提供高效支持。研究团队认为,未来大语言模型或可自动生成类似高性能内核。
原文链接
本文链接:https://kx.umi6.com/article/21591.html
转载请注明文章出处
相关推荐
.png)
换一换
无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了
2025-07-11 15:39:22
证券业首个全AI智能APP问世!国泰海通灵犀APP创造十个不同
2025-07-24 15:08:36
AI搜索的未来不是“十个蓝色链接”,而是直接给你答案
2025-07-25 12:22:24
特斯拉 Optimus 机器人产量被曝仅数百台,远不及马斯克“5000 台”宏伟目标
2025-07-25 23:31:11
大举投资AI究竟是不是“智商税”?
2025-07-25 21:31:27
5年后,编写软件只要一毛钱?
2025-07-25 21:30:16
MiniMax Agent发布30天,这次真的碾压了OpenAI?
2025-07-25 17:30:37
智谱 GLM-4.5 系列 AI 模型踪迹曝光,预估采用新混合专家架构
2025-07-25 14:26:13
大举投资AI究竟是不是“智商税”?大摩:三大领域已看到实际回报!
2025-07-25 12:23:31
有车科技自研“汽车AI营销应用大模型”,以全价值链服务重塑车企增长引擎
2025-07-24 23:13:56
字节、腾讯、阿里,AI 编码「三国杀」
2025-07-25 15:26:00
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
奥尔特曼曝ChatGPT对话尚未受法律保护:用户遇上诉讼时可能被公开
2025-07-25 23:34:37
412 文章
55926 浏览
24小时热文
更多

-
2025-07-26 00:33:19
-
2025-07-26 00:31:49
-
2025-07-25 23:34:37