CUDA - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

苹果向英伟达生态妥协了！MLX框架主动适配CUDA

2025年7月，苹果宣布其MLX框架新增对英伟达CUDA的支持，引发广泛关注。MLX是苹果专为端侧AI模型训练推出的开源框架，此前主要适配自研芯片。由于英伟达CUDA生态在AI开发领域的主导地位及其市值突破4万亿美元的强势表现，苹果选择妥协，主动拥抱CUDA以满足开发者需求。此举允许苹果开发者利用英伟达GPU训练模型，并提升跨平台部署效率。这一战略调整被视作苹果十年来的重要举措，也再次引发对其与英伟达“陈年旧怨”的讨论。CUDA作为英伟达的核心护城河，拥有超500万开发者和4万家企业支持，苹果此举意在借力CUDA生态扩大自身AI市场影响力，同时规避法律风险。

原文链接

AI创想团

07-17 14:22:02

CUDA

英伟达

苹果

分享至

打开微信扫一扫

内容投诉

生成图片

苹果 AI 框架 MLX 正新增英伟达 CUDA 支持，助开发者降低硬件成本

7月16日，苹果专为Apple Silicon设计的机器学习框架MLX正新增对英伟达CUDA的支持。这一更新允许开发者在Apple Silicon Mac上开发应用后，导出至CUDA环境运行，从而降低硬件成本。此前，由于MLX深度集成于Metal框架，无法在macOS外运行，开发者需额外硬件完成部署测试。新支持由GitHub开发者@zcbenz主导，通过模块化逐步并入MLX主分支。该功能仅限从苹果环境导出代码至Nvidia硬件运行，不能直接在Mac上使用Nvidia显卡或运行基于CUDA的项目。此举有助于小规模开发者节省开支，并结合Nvidia硬件的高性能提升算力支持。

原文链接

未来编码者

07-16 10:01:47

Apple Silicon

CUDA支持

MLX框架

分享至

打开微信扫一扫

内容投诉

生成图片

4万亿英伟达，凭什么？

2025年7月，英伟达市值突破4万亿美元，成为全球资本市场焦点。其成功背后不仅是GPU硬件，更是近20年前推出的CUDA生态系统的支撑。CUDA通过强大的开发者社区和工具链形成网络效应，令竞争对手难以超越。此外，英伟达通过‘向上集成’战略，从卖GPU芯片到提供全栈AI解决方案，不断提升客户价值与粘性。专家指出，英伟达正契合‘主权AI’趋势，为各国构建独立AI基础设施提供关键支持，进一步巩固其地缘政治战略资源地位。这使得其4万亿美元市值更具确定性与不可替代性。

原文链接

AI奇点纪元

07-11 11:35:49

AI芯片

CUDA

英伟达

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达铁王坐不稳？ASIC成「心腹大患」，三大软肋暴露无遗

7月3日，英伟达市值达3.92万亿美元，超越苹果成为史上最高上市公司，但其AI GPU霸主地位正面临ASIC芯片阵营的严峻挑战。谷歌、亚马逊、Meta等云巨头加速自研AI芯片，OpenAI也被曝测试谷歌TPU，试图减少对英伟达的依赖。ASIC芯片因其高效率和低成本，在推理与训练场景中逐渐崭露头角，预计2026年出货量可能超越英伟达GPU。此外，英伟达营收过度依赖少数大客户，产品高昂成本令中小客户却步，封闭的CUDA生态也引发开发者不满。尽管英伟达推出NVLink Fusion应对UALink联盟的竞争，但市场去中心化趋势明显，英伟达的领先地位并不稳固。

原文链接

Nebula

07-09 11:03:05

ASIC芯片

CUDA生态

英伟达

分享至

打开微信扫一扫

内容投诉

生成图片

黄仁勋发布量子计算专用CUDA！预言量子计算机几年内应用，但现在还离不开GB200

黄仁勋发布量子计算专用CUDA！预言量子计算机几年内应用，但现在还离不开GB200 “量子计算正在到达一个拐点。”在GTC巴黎的演讲中，英伟达CEO黄仁勋对量子计算作出新判断。他改变了此前“实用量子计算机还需20年”的观点，预言实际应用将在几年内实现。然而，他强调，当前量子计算机开发仍需依赖英伟...

原文链接

Oasis

06-13 11:04:29

CUDA-Q

英伟达

量子计算

分享至

打开微信扫一扫

内容投诉

生成图片

斯坦福意外用AI生成超强CUDA内核性能好得出奇！华人主创

斯坦福大学的研究团队意外发现，通过AI生成的CUDA内核在性能上显著超越了PyTorch优化的内核。例如，二维卷积性能达到PyTorch的179.9%，层归一化性能更是提升了484.4%。这项研究由华人学者Anne Ouyang、Azalia Mirhoseini及Percy Liang主导，原本目标是生成数据训练内核生成模型，但测试阶段生成的数据本身却意外表现出色。团队采用多分支探索策略，结合语言推理，使AI在每次迭代中产生多样化的优化方案。此方法不仅展现了AI强大的推理能力，还表明无需大规模再训练，巧妙的搜索策略也能解决复杂问题。尽管仍存在优化空间，如FP16 Matmul和Flash Attention性能仍有提升余地，但研究团队对未来充满信心。该成果近期发布，引发了广泛关注。

原文链接

电子诗篇

05-31 15:08:12

AI内核优化

CUDA内核

斯坦福研究

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek技术解析：如何冲击英伟达两大壁垒？

标题：DeepSeek技术解析：如何冲击英伟达两大壁垒？ DeepSeek的V3模型以557.6万的训练成本，实现了与OpenAI O1相近的性能，引发全球关注。这不仅使英伟达股价大跌，还引发了对芯片需求和市场前景的讨论。 DeepSeek的创新主要集中在基础模型能力和训练方法上。陈羽北指出，V3模...

原文链接

跨界思维

02-08 14:25:43

CUDA

DeepSeek

分享至

打开微信扫一扫

内容投诉

生成图片

郭明錤：DeepSeek 爆红将加速端侧 AI 发展

郭明錤表示，DeepSeek 爆红加速了端侧 AI 的发展。DeepSeek 的流行推动了英伟达 H100 训练需求增长，优化训练方法降低了成本并展示了 CUDA 生态的竞争力。DeepSeek 带动了本地大模型部署热潮，提升中小规模 LLM 性能，用户对数据安全的担忧也加速了这一趋势。目前，常见部署方式包括使用 LM Studio 和 Ollama 运行模型，硬件范围从低端笔记本到高端 PC。尽管当前仍处于小众市场，长期看端侧 AI 发展速度超出预期，可能短期内影响云计算增速。未来，更多开源模型的推出将进一步推动本地 LLM 生态的发展。

原文链接

幻彩逻辑RainbowLogic

02-05 11:02:37

CUDA生态

DeepSeek

端侧AI

分享至

打开微信扫一扫

内容投诉

生成图片

“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

英伟达股价刚从4万亿元暴跌中恢复，又面临新挑战。硬件媒体Tom's Hardware报道，DeepSeek-V3论文揭示其绕过CUDA，采用更底层的PTX语言优化。DeepSeek-V3通过修改132个流式多处理器中的20个，专注于服务器间通信而非计算，从而突破硬件通信速度限制。PTX在接近汇编语言层级运行，允许细粒度优化，但复杂且难以维护。亚马逊工程师质疑CUDA是否仍是护城河，若DeepSeek开源CUDA替代方案，情况将如何变化？ DeepSeek虽使用PTX，但仍依赖CUDA生态，不过展示了优化其他GPU的能力。DeepSeek已与AMD、华为等合作，支持多种硬件。此外，DeepSeek-R1编写代码显著提升了大模型推理框架的速度，表明AI有能力编写高效底层代码，甚至优化自身。

原文链接

像素宇宙

01-29 12:06:53

CUDA

DeepSeek

PTX

分享至

打开微信扫一扫

内容投诉

生成图片

摩尔线程开源 OpenCV-MUSA：支持绝大部分 cv::cuda 命名空间下数据结构及 API

摩尔线程宣布其自研统一系统架构MUSA已完成与开源计算机视觉库OpenCV的适配，并正式发布OpenCV-MUSA开源项目，旨在为用户提供在MUSA设备上的加速支持。OpenCV作为计算机视觉领域的核心工具，在自动驾驶、医疗影像、安防监控等领域广泛应用。通过新增MUSA设备后端并适配编译脚本，OpenCV-MUSA已支持包括core、mudev、musaarithm等在内的多个模块，覆盖大部分cv::cuda命名空间下的数据结构及API，尤其是GpuMat。开发者只需替换命名空间，即可在MUSA设备上实现相同功能。此项目现已开放源代码，供开发者使用与贡献。

原文链接