斯坦福意外用AI生成超强CUDA内核性能好得出奇！华人主创

2025-05-31 15:08:12

电子诗篇

发布在

快讯

阅读：913

斯坦福大学的研究团队意外发现，通过AI生成的CUDA内核在性能上显著超越了PyTorch优化的内核。例如，二维卷积性能达到PyTorch的179.9%，层归一化性能更是提升了484.4%。这项研究由华人学者Anne Ouyang、Azalia Mirhoseini及Percy Liang主导，原本目标是生成数据训练内核生成模型，但测试阶段生成的数据本身却意外表现出色。团队采用多分支探索策略，结合语言推理，使AI在每次迭代中产生多样化的优化方案。此方法不仅展现了AI强大的推理能力，还表明无需大规模再训练，巧妙的搜索策略也能解决复杂问题。尽管仍存在优化空间，如FP16 Matmul和Flash Attention性能仍有提升余地，但研究团队对未来充满信心。该成果近期发布，引发了广泛关注。

原文链接

本文链接：https://kx.umi6.com/article/19553.html

转载请注明文章出处

AI内核优化