斯坦福大学意外发现AI生成的CUDA内核性能超越人类专家优化的版本,部分操作甚至翻倍碾压PyTorch。该研究由华人学者主导,展示了AI在内核优化领域的巨大潜力。
研究团队原本计划生成合成数据以训练内核生成模型,但测试阶段生成的数据本身竟表现出色。在NVIDIA L40S GPU上测试显示,AI生成的内核性能显著优于PyTorch原生实现,例如: - 矩阵乘法(FP32)性能达PyTorch的101.3% - 二维卷积(Conv2D)性能达179.9% - Softmax性能达111.8% - 层归一化(LayerNorm)性能达484.4% - Conv2D+ReLU+MaxPool组合操作性能达290.1%
令人惊讶的是,这种性能提升并非通过传统的逐步优化实现,而是通过引入语言推理步骤,鼓励搜索过程的多样化。团队利用自然语言生成优化思想,再将其转化为CUDA-C代码,避免了传统优化方法容易陷入局部最优的问题。
研究团队采用多分支探索模式,每轮迭代生成多个实现,选择性能最优的作为下一轮种子。最终,最佳内核多出现在第4或第5轮。团队还展示了生成内核的优化轨迹,包括内存访问优化、异步操作、数据类型优化、并行性增强等策略。
主创团队成员包括斯坦福大学博士生Anne Ouyang、副教授Percy Liang及助理教授Azalia Mirhoseini。Ouyang曾是英伟达cuDNN团队成员,Liang领导斯坦福基础模型研究中心,Mirhoseini则在DeepMind和Google Brain有过重要贡献。
尽管仍有优化空间,例如FP16 Matmul和FP16 Flash Attention的性能仍需提升,但团队对未来充满信心。研究显示,强大的搜索与推理能力结合,可能成为解锁复杂问题的关键。此外,其他团队也在探索类似方向,如Cognition开源的Kevin-32B大模型。
-
2025-10-24 09:32:35 -
2025-10-24 09:31:18 -
2025-10-24 09:30:10