斯坦福大学的研究团队意外发现,通过AI生成的CUDA内核在性能上显著超越了PyTorch优化的内核。例如,二维卷积性能达到PyTorch的179.9%,层归一化性能更是提升了484.4%。这项研究由华人学者Anne Ouyang、Azalia Mirhoseini及Percy Liang主导,原本目标是生成数据训练内核生成模型,但测试阶段生成的数据本身却意外表现出色。团队采用多分支探索策略,结合语言推理,使AI在每次迭代中产生多样化的优化方案。此方法不仅展现了AI强大的推理能力,还表明无需大规模再训练,巧妙的搜索策略也能解决复杂问题。尽管仍存在优化空间,如FP16 Matmul和Flash Attention性能仍有提升余地,但研究团队对未来充满信心。该成果近期发布,引发了广泛关注。
原文链接
本文链接:https://kx.umi6.com/article/19553.html
转载请注明文章出处
相关推荐
.png)
换一换
斯坦福意外用AI生成超强CUDA内核 性能好得出奇!华人主创
2025-05-31 15:08:12
斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创
2025-05-31 12:04:12
“AI副驾”大幅提升脑机接口系统操控力
2025-09-08 08:58:43
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
一键照片“手办化”:谷歌 Gemini 上线“Nano Banana”文生图模型,无需访问 AI Studio
2025-09-06 22:39:24
中盐集团与中国移动签署战略合作协议
2025-09-05 11:18:12
消息称 ASML 承诺入股法国 AI 企业 Mistral,将成后者最大股东
2025-09-08 08:57:36
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
2025-09-05 13:20:04
看多做多 私募信心与仓位齐升
2025-09-08 07:53:52
实测美团 LongCat:快到极致,但是别说追平 DeepSeek
2025-09-05 15:22:48
抖音出现大量 AI 仿冒于东来内容,封禁 1000 多个黑灰产团伙账号
2025-09-08 10:56:03
还得继续砸钱,OpenAI 预计到 2029 年总支出或超千亿美元
2025-09-06 20:38:03
别只用Nano Banana 生图了,视频生成才是王炸组合,这些隐藏玩法真香
2025-09-05 12:19:55
481 文章
162827 浏览
24小时热文
更多

-
2025-09-08 10:58:39
-
2025-09-08 10:58:15
-
2025-09-08 10:57:33