性能优化 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI生成苹果Metal内核，PyTorch推理速度提升87%

2025年9月，Gimlet Labs研究发现，AI可自动生成苹果设备的Metal内核，并显著提升PyTorch推理速度。实验显示，AI生成内核在215个PyTorch模块上实现平均1.87倍加速，部分工作负载甚至快数百倍。研究人员使用Mac Studio（Apple M4 Max芯片）和PyTorch eager模式作为基准，测试了Anthropic、DeepSeek和OpenAI等模型。AI生成内核正确性随尝试次数增加而提高，第5次尝试时可达94%。智能体群体策略进一步优化性能，平均加速31%，特定层级达42%。研究强调其目标是验证AI生成内核的可行性，而非追求极限性能，展现自动化内核工程的潜力。

原文链接

数据炼金师

09-05 11:17:03

AI生成内核

Metal性能优化

PyTorch推理速度

分享至

打开微信扫一扫

内容投诉

生成图片

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

无需数据标注！测试时强化学习，模型数学能力暴增159%！清华和上海AI Lab周伯文团队提出一种新方法：测试时强化学习（TTRL），无需数据标注，仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例，在AIME 2024竞赛题中的准确率从16.7%提升至43.3%，增幅...

原文链接

AI思维矩阵

04-24 14:35:28

数学能力提升

模型性能优化

测试时强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

深度拆解：DeepSeek-V3是怎么训练的

标题：深度解析：DeepSeek-V3的训练过程近日，DeepSeek-V3低调发布，凭借500万美元的成本，其性能媲美Claude 3.5，并已开源。性能 DeepSeek-V3在多项基准测试中表现出色，尤其在高级数学推理能力方面超越其他模型。它在BBH、MMLU系列、DROP、HumanEv...

原文链接

代码编织者Nexus

12-30 21:30:52

Deepseek-v3

性能优化

训练策略

分享至

打开微信扫一扫

内容投诉

生成图片

从1纳秒到2天：你的系统延迟“合理”吗？

本文探讨了IT系统中的延迟问题，从1纳秒到2天，涵盖了CPU、内存、网络、硬盘等组件的响应时间。作者强调了理解延迟指标对性能优化和产品设计的重要性，指出即使在现代技术中，光速限制等因素决定了某些延迟的理论最低值。例如，北京到广州的延迟受物理距离影响，不可能低于6毫秒。文章介绍了不同延迟级别下的典型活动，如CPU的20纳秒以下、内存读写和网络操作的微秒级，以及广域网通信的毫秒至秒级延迟。最后，作者提醒在产品设计和性能需求设定时，需考虑这些延迟因素。本文摘自公众号“云算计”，作者曹亚孟。

原文链接