1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

斯坦福大学意外发现AI生成的CUDA内核性能超越人类专家优化的版本,部分操作甚至翻倍碾压PyTorch。该研究由华人学者主导,展示了AI在内核优化领域的巨大潜力。

研究团队原本计划生成合成数据以训练内核生成模型,但测试阶段生成的数据本身竟表现出色。在NVIDIA L40S GPU上测试显示,AI生成的内核性能显著优于PyTorch原生实现,例如: - 矩阵乘法(FP32)性能达PyTorch的101.3% - 二维卷积(Conv2D)性能达179.9% - Softmax性能达111.8% - 层归一化(LayerNorm)性能达484.4% - Conv2D+ReLU+MaxPool组合操作性能达290.1%

令人惊讶的是,这种性能提升并非通过传统的逐步优化实现,而是通过引入语言推理步骤,鼓励搜索过程的多样化。团队利用自然语言生成优化思想,再将其转化为CUDA-C代码,避免了传统优化方法容易陷入局部最优的问题。

研究团队采用多分支探索模式,每轮迭代生成多个实现,选择性能最优的作为下一轮种子。最终,最佳内核多出现在第4或第5轮。团队还展示了生成内核的优化轨迹,包括内存访问优化、异步操作、数据类型优化、并行性增强等策略。

主创团队成员包括斯坦福大学博士生Anne Ouyang、副教授Percy Liang及助理教授Azalia Mirhoseini。Ouyang曾是英伟达cuDNN团队成员,Liang领导斯坦福基础模型研究中心,Mirhoseini则在DeepMind和Google Brain有过重要贡献。

尽管仍有优化空间,例如FP16 Matmul和FP16 Flash Attention的性能仍需提升,但团队对未来充满信心。研究显示,强大的搜索与推理能力结合,可能成为解锁复杂问题的关键。此外,其他团队也在探索类似方向,如Cognition开源的Kevin-32B大模型。

原文链接
本文链接:https://kx.umi6.com/article/19544.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
初步研究表明 AI 无法准确预测股市
2025-05-17 12:04:05
四位图灵奖掌舵,2025智源大会揭示AI进化新路径
2025-05-23 14:51:40
让鲁迅说绕口令、赫本玩嘻哈,又一视频模型火了,斯坦福华人博士创立
2024-06-15 10:08:44
软件已死,数据永生?
2024-10-29 21:41:35
我在淘天做算法:十年拍立淘,一部视觉算法技术演变史
2024-11-09 15:48:35
斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创
2025-05-31 12:04:12
中国AI长卷(三):算法生根
2024-08-05 21:57:06
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
2024-11-28 09:19:46
LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞
2025-02-18 11:12:38
百度飞桨框架 3.0 正式版发布,五大特性专为大模型设计
2025-04-03 10:12:11
AlphaFold为什么能精准预测蛋白质结构?
2024-07-02 20:33:23
1300万开发者都在关注的大会!WAVE SUMMIT 2024即将来袭
2024-06-13 16:38:39
AI狂潮之下,谁是那个唯一「真神」?
2024-08-19 18:15:56
24小时热文
更多
扫一扫体验小程序