1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

斯坦福大学意外发现AI生成的CUDA内核性能超越人类专家优化的版本,部分操作甚至翻倍碾压PyTorch。该研究由华人学者主导,展示了AI在内核优化领域的巨大潜力。

研究团队原本计划生成合成数据以训练内核生成模型,但测试阶段生成的数据本身竟表现出色。在NVIDIA L40S GPU上测试显示,AI生成的内核性能显著优于PyTorch原生实现,例如: - 矩阵乘法(FP32)性能达PyTorch的101.3% - 二维卷积(Conv2D)性能达179.9% - Softmax性能达111.8% - 层归一化(LayerNorm)性能达484.4% - Conv2D+ReLU+MaxPool组合操作性能达290.1%

令人惊讶的是,这种性能提升并非通过传统的逐步优化实现,而是通过引入语言推理步骤,鼓励搜索过程的多样化。团队利用自然语言生成优化思想,再将其转化为CUDA-C代码,避免了传统优化方法容易陷入局部最优的问题。

研究团队采用多分支探索模式,每轮迭代生成多个实现,选择性能最优的作为下一轮种子。最终,最佳内核多出现在第4或第5轮。团队还展示了生成内核的优化轨迹,包括内存访问优化、异步操作、数据类型优化、并行性增强等策略。

主创团队成员包括斯坦福大学博士生Anne Ouyang、副教授Percy Liang及助理教授Azalia Mirhoseini。Ouyang曾是英伟达cuDNN团队成员,Liang领导斯坦福基础模型研究中心,Mirhoseini则在DeepMind和Google Brain有过重要贡献。

尽管仍有优化空间,例如FP16 Matmul和FP16 Flash Attention的性能仍需提升,但团队对未来充满信心。研究显示,强大的搜索与推理能力结合,可能成为解锁复杂问题的关键。此外,其他团队也在探索类似方向,如Cognition开源的Kevin-32B大模型。

原文链接
本文链接:https://kx.umi6.com/article/19544.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
利用深度学习工具 科学家设计出抗致命蛇毒蛋白质
2025-01-17 09:14:02
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
2024-11-28 09:19:46
中国AI长卷(三):算法生根
2024-08-05 21:57:06
报告称斯坦福计算机学位“黄金入场券”褪色,初级程序员就业率暴跌 20%
2025-12-30 10:12:53
我在淘天做算法:十年拍立淘,一部视觉算法技术演变史
2024-11-09 15:48:35
Hinton暴论:AI已经有意识,它自己不知道而已
2025-10-12 12:42:55
斯坦福大学研究:教育水平较低地区的 AI 写作工具使用率更高
2025-03-04 18:24:18
一句话让DeepSeek思考停不下来,北大团队:这是针对AI的DDoS攻击
2025-02-28 16:15:09
新加坡国立大学赖载兴教授专访:用混沌边缘改善神经网络,与上帝掷骰子 | IJAIRR
2024-08-06 11:19:51
四位图灵奖掌舵,2025智源大会揭示AI进化新路径
2025-05-23 14:51:40
科学界论文高引第一人易主!AI站上历史巅峰
2025-08-25 14:30:10
斯坦福大学最新研究:人工智能正在破坏美国年轻人的就业前景
2025-08-26 22:54:53
初步研究表明 AI 无法准确预测股市
2025-05-17 12:04:05
24小时热文
更多
扫一扫体验小程序