1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

斯坦福大学意外发现AI生成的CUDA内核性能超越人类专家优化的版本,部分操作甚至翻倍碾压PyTorch。该研究由华人学者主导,展示了AI在内核优化领域的巨大潜力。

研究团队原本计划生成合成数据以训练内核生成模型,但测试阶段生成的数据本身竟表现出色。在NVIDIA L40S GPU上测试显示,AI生成的内核性能显著优于PyTorch原生实现,例如: - 矩阵乘法(FP32)性能达PyTorch的101.3% - 二维卷积(Conv2D)性能达179.9% - Softmax性能达111.8% - 层归一化(LayerNorm)性能达484.4% - Conv2D+ReLU+MaxPool组合操作性能达290.1%

令人惊讶的是,这种性能提升并非通过传统的逐步优化实现,而是通过引入语言推理步骤,鼓励搜索过程的多样化。团队利用自然语言生成优化思想,再将其转化为CUDA-C代码,避免了传统优化方法容易陷入局部最优的问题。

研究团队采用多分支探索模式,每轮迭代生成多个实现,选择性能最优的作为下一轮种子。最终,最佳内核多出现在第4或第5轮。团队还展示了生成内核的优化轨迹,包括内存访问优化、异步操作、数据类型优化、并行性增强等策略。

主创团队成员包括斯坦福大学博士生Anne Ouyang、副教授Percy Liang及助理教授Azalia Mirhoseini。Ouyang曾是英伟达cuDNN团队成员,Liang领导斯坦福基础模型研究中心,Mirhoseini则在DeepMind和Google Brain有过重要贡献。

尽管仍有优化空间,例如FP16 Matmul和FP16 Flash Attention的性能仍需提升,但团队对未来充满信心。研究显示,强大的搜索与推理能力结合,可能成为解锁复杂问题的关键。此外,其他团队也在探索类似方向,如Cognition开源的Kevin-32B大模型。

原文链接
本文链接:https://kx.umi6.com/article/19544.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
斯坦福大学研究:教育水平较低地区的 AI 写作工具使用率更高
2025-03-04 18:24:18
新加坡国立大学赖载兴教授专访:用混沌边缘改善神经网络,与上帝掷骰子 | IJAIRR
2024-08-06 11:19:51
斯坦福新论文:微调已死,自主上下文当立
2025-10-11 14:27:49
多模型AI诊断疟疾准确率达96.47%
2025-07-18 06:34:36
让鲁迅说绕口令、赫本玩嘻哈,又一视频模型火了,斯坦福华人博士创立
2024-06-15 10:08:44
Hinton暴论:AI已经有意识,它自己不知道而已
2025-10-12 12:42:55
AI 卷翻科研:DeepMind 36 页报告称全球实验室被「AI 科学家」指数级接管
2024-11-27 15:55:47
Altman:憋了个大招,但我不能说
2024-11-05 15:48:54
李飞飞被曝AI创业!做空间智能,已筹集种子轮融资
2024-05-20 14:39:07
1300万开发者都在关注的大会!WAVE SUMMIT 2024即将来袭
2024-06-13 16:38:39
中国AI长卷(三):算法生根
2024-08-05 21:57:06
一句话让DeepSeek思考停不下来,北大团队:这是针对AI的DDoS攻击
2025-02-28 16:15:09
利用深度学习工具 科学家设计出抗致命蛇毒蛋白质
2025-01-17 09:14:02
24小时热文
更多
扫一扫体验小程序