斯坦福大学的研究团队意外发现,通过AI生成的CUDA内核在性能上显著超越了PyTorch优化的内核。例如,二维卷积性能达到PyTorch的179.9%,层归一化性能更是提升了484.4%。这项研究由华人学者Anne Ouyang、Azalia Mirhoseini及Percy Liang主导,原本目标是生成数据训练内核生成模型,但测试阶段生成的数据本身却意外表现出色。团队采用多分支探索策略,结合语言推理,使AI在每次迭代中产生多样化的优化方案。此方法不仅展现了AI强大的推理能力,还表明无需大规模再训练,巧妙的搜索策略也能解决复杂问题。尽管仍存在优化空间,如FP16 Matmul和Flash Attention性能仍有提升余地,但研究团队对未来充满信心。该成果近期发布,引发了广泛关注。
原文链接
本文链接:https://kx.umi6.com/article/19553.html
转载请注明文章出处
相关推荐
.png)
换一换
特朗普将发布人工智能政策指南 料推动放宽监管及投资能源
2025-07-18 13:38:59
Day0 级支持,摩尔线程官宣支持通义千问 QwQ-32B 开源模型
2025-03-07 09:59:10
工业富联董事长郑弘孟:新一代AI服务器GB200预计今年推出
2024-06-24 23:38:45
425 文章
65675 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21