1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

斯坦福大学意外发现AI生成的CUDA内核性能超越人类专家优化的版本,部分操作甚至翻倍碾压PyTorch。该研究由华人学者主导,展示了AI在内核优化领域的巨大潜力。

研究团队原本计划生成合成数据以训练内核生成模型,但测试阶段生成的数据本身竟表现出色。在NVIDIA L40S GPU上测试显示,AI生成的内核性能显著优于PyTorch原生实现,例如: - 矩阵乘法(FP32)性能达PyTorch的101.3% - 二维卷积(Conv2D)性能达179.9% - Softmax性能达111.8% - 层归一化(LayerNorm)性能达484.4% - Conv2D+ReLU+MaxPool组合操作性能达290.1%

令人惊讶的是,这种性能提升并非通过传统的逐步优化实现,而是通过引入语言推理步骤,鼓励搜索过程的多样化。团队利用自然语言生成优化思想,再将其转化为CUDA-C代码,避免了传统优化方法容易陷入局部最优的问题。

研究团队采用多分支探索模式,每轮迭代生成多个实现,选择性能最优的作为下一轮种子。最终,最佳内核多出现在第4或第5轮。团队还展示了生成内核的优化轨迹,包括内存访问优化、异步操作、数据类型优化、并行性增强等策略。

主创团队成员包括斯坦福大学博士生Anne Ouyang、副教授Percy Liang及助理教授Azalia Mirhoseini。Ouyang曾是英伟达cuDNN团队成员,Liang领导斯坦福基础模型研究中心,Mirhoseini则在DeepMind和Google Brain有过重要贡献。

尽管仍有优化空间,例如FP16 Matmul和FP16 Flash Attention的性能仍需提升,但团队对未来充满信心。研究显示,强大的搜索与推理能力结合,可能成为解锁复杂问题的关键。此外,其他团队也在探索类似方向,如Cognition开源的Kevin-32B大模型。

原文链接
本文链接:https://kx.umi6.com/article/19544.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准
2025-01-06 10:19:08
ChatGPT上线“AI教师”模式:你要的是答案,它教你如何思考
2025-07-30 17:51:57
斯坦福大学最新研究:人工智能正在破坏美国年轻人的就业前景
2025-08-26 22:54:53
软件已死,数据永生?
2024-10-29 21:41:35
科学界论文高引第一人易主!AI站上历史巅峰
2025-08-25 14:30:10
Hinton暴论:AI已经有意识,它自己不知道而已
2025-10-12 12:42:55
AI大神们吵起架来,也很吓人
2024-11-25 19:13:24
报告称斯坦福计算机学位“黄金入场券”褪色,初级程序员就业率暴跌 20%
2025-12-30 10:12:53
斯坦福意外用AI生成超强CUDA内核 性能好得出奇!华人主创
2025-05-31 15:08:12
百度飞桨框架 3.0 正式版发布,五大特性专为大模型设计
2025-04-03 10:12:11
AI 卷翻科研:DeepMind 36 页报告称全球实验室被「AI 科学家」指数级接管
2024-11-27 15:55:47
中国AI长卷(三):算法生根
2024-08-05 21:57:06
斯坦福大学研究:教育水平较低地区的 AI 写作工具使用率更高
2025-03-04 18:24:18
24小时热文
更多
扫一扫体验小程序