斯坦福意外用AI生成超强CUDA内核，性能比人类专家优化得还要好！翻倍碾压原生PyTorch，华人主创

2025-05-31 12:04:12

智能视野

发布在

科普

阅读：715

斯坦福大学意外发现AI生成的CUDA内核性能超越人类专家优化的版本，部分操作甚至翻倍碾压PyTorch。该研究由华人学者主导，展示了AI在内核优化领域的巨大潜力。

研究团队原本计划生成合成数据以训练内核生成模型，但测试阶段生成的数据本身竟表现出色。在NVIDIA L40S GPU上测试显示，AI生成的内核性能显著优于PyTorch原生实现，例如： - 矩阵乘法（FP32）性能达PyTorch的101.3% - 二维卷积（Conv2D）性能达179.9% - Softmax性能达111.8% - 层归一化（LayerNorm）性能达484.4% - Conv2D+ReLU+MaxPool组合操作性能达290.1%

令人惊讶的是，这种性能提升并非通过传统的逐步优化实现，而是通过引入语言推理步骤，鼓励搜索过程的多样化。团队利用自然语言生成优化思想，再将其转化为CUDA-C代码，避免了传统优化方法容易陷入局部最优的问题。

研究团队采用多分支探索模式，每轮迭代生成多个实现，选择性能最优的作为下一轮种子。最终，最佳内核多出现在第4或第5轮。团队还展示了生成内核的优化轨迹，包括内存访问优化、异步操作、数据类型优化、并行性增强等策略。

主创团队成员包括斯坦福大学博士生Anne Ouyang、副教授Percy Liang及助理教授Azalia Mirhoseini。Ouyang曾是英伟达cuDNN团队成员，Liang领导斯坦福基础模型研究中心，Mirhoseini则在DeepMind和Google Brain有过重要贡献。

尽管仍有优化空间，例如FP16 Matmul和FP16 Flash Attention的性能仍需提升，但团队对未来充满信心。研究显示，强大的搜索与推理能力结合，可能成为解锁复杂问题的关键。此外，其他团队也在探索类似方向，如Cognition开源的Kevin-32B大模型。

原文链接

本文链接：https://kx.umi6.com/article/19544.html

转载请注明文章出处

AI内核优化