
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年7月,苹果宣布其MLX框架新增对英伟达CUDA的支持,引发广泛关注。MLX是苹果专为端侧AI模型训练推出的开源框架,此前主要适配自研芯片。由于英伟达CUDA生态在AI开发领域的主导地位及其市值突破4万亿美元的强势表现,苹果选择妥协,主动拥抱CUDA以满足开发者需求。此举允许苹果开发者利用英伟达GPU训练模型,并提升跨平台部署效率。这一战略调整被视作苹果十年来的重要举措,也再次引发对其与英伟达“陈年旧怨”的讨论。CUDA作为英伟达的核心护城河,拥有超500万开发者和4万家企业支持,苹果此举意在借力CUDA生态扩大自身AI市场影响力,同时规避法律风险。
原文链接
7月16日,苹果专为Apple Silicon设计的机器学习框架MLX正新增对英伟达CUDA的支持。这一更新允许开发者在Apple Silicon Mac上开发应用后,导出至CUDA环境运行,从而降低硬件成本。此前,由于MLX深度集成于Metal框架,无法在macOS外运行,开发者需额外硬件完成部署测试。新支持由GitHub开发者@zcbenz主导,通过模块化逐步并入MLX主分支。该功能仅限从苹果环境导出代码至Nvidia硬件运行,不能直接在Mac上使用Nvidia显卡或运行基于CUDA的项目。此举有助于小规模开发者节省开支,并结合Nvidia硬件的高性能提升算力支持。
原文链接
2025年7月,英伟达市值突破4万亿美元,成为全球资本市场焦点。其成功背后不仅是GPU硬件,更是近20年前推出的CUDA生态系统的支撑。CUDA通过强大的开发者社区和工具链形成网络效应,令竞争对手难以超越。此外,英伟达通过‘向上集成’战略,从卖GPU芯片到提供全栈AI解决方案,不断提升客户价值与粘性。专家指出,英伟达正契合‘主权AI’趋势,为各国构建独立AI基础设施提供关键支持,进一步巩固其地缘政治战略资源地位。这使得其4万亿美元市值更具确定性与不可替代性。
原文链接
7月3日,英伟达市值达3.92万亿美元,超越苹果成为史上最高上市公司,但其AI GPU霸主地位正面临ASIC芯片阵营的严峻挑战。谷歌、亚马逊、Meta等云巨头加速自研AI芯片,OpenAI也被曝测试谷歌TPU,试图减少对英伟达的依赖。ASIC芯片因其高效率和低成本,在推理与训练场景中逐渐崭露头角,预计2026年出货量可能超越英伟达GPU。此外,英伟达营收过度依赖少数大客户,产品高昂成本令中小客户却步,封闭的CUDA生态也引发开发者不满。尽管英伟达推出NVLink Fusion应对UALink联盟的竞争,但市场去中心化趋势明显,英伟达的领先地位并不稳固。
原文链接
黄仁勋发布量子计算专用CUDA!预言量子计算机几年内应用,但现在还离不开GB200
“量子计算正在到达一个拐点。”在GTC巴黎的演讲中,英伟达CEO黄仁勋对量子计算作出新判断。他改变了此前“实用量子计算机还需20年”的观点,预言实际应用将在几年内实现。然而,他强调,当前量子计算机开发仍需依赖英伟...
原文链接
斯坦福大学的研究团队意外发现,通过AI生成的CUDA内核在性能上显著超越了PyTorch优化的内核。例如,二维卷积性能达到PyTorch的179.9%,层归一化性能更是提升了484.4%。这项研究由华人学者Anne Ouyang、Azalia Mirhoseini及Percy Liang主导,原本目标是生成数据训练内核生成模型,但测试阶段生成的数据本身却意外表现出色。团队采用多分支探索策略,结合语言推理,使AI在每次迭代中产生多样化的优化方案。此方法不仅展现了AI强大的推理能力,还表明无需大规模再训练,巧妙的搜索策略也能解决复杂问题。尽管仍存在优化空间,如FP16 Matmul和Flash Attention性能仍有提升余地,但研究团队对未来充满信心。该成果近期发布,引发了广泛关注。
原文链接
标题:DeepSeek技术解析:如何冲击英伟达两大壁垒?
DeepSeek的V3模型以557.6万的训练成本,实现了与OpenAI O1相近的性能,引发全球关注。这不仅使英伟达股价大跌,还引发了对芯片需求和市场前景的讨论。
DeepSeek的创新主要集中在基础模型能力和训练方法上。陈羽北指出,V3模...
原文链接
郭明錤表示,DeepSeek 爆红加速了端侧 AI 的发展。DeepSeek 的流行推动了英伟达 H100 训练需求增长,优化训练方法降低了成本并展示了 CUDA 生态的竞争力。DeepSeek 带动了本地大模型部署热潮,提升中小规模 LLM 性能,用户对数据安全的担忧也加速了这一趋势。目前,常见部署方式包括使用 LM Studio 和 Ollama 运行模型,硬件范围从低端笔记本到高端 PC。尽管当前仍处于小众市场,长期看端侧 AI 发展速度超出预期,可能短期内影响云计算增速。未来,更多开源模型的推出将进一步推动本地 LLM 生态的发展。
原文链接
英伟达股价刚从4万亿元暴跌中恢复,又面临新挑战。硬件媒体Tom's Hardware报道,DeepSeek-V3论文揭示其绕过CUDA,采用更底层的PTX语言优化。DeepSeek-V3通过修改132个流式多处理器中的20个,专注于服务器间通信而非计算,从而突破硬件通信速度限制。PTX在接近汇编语言层级运行,允许细粒度优化,但复杂且难以维护。亚马逊工程师质疑CUDA是否仍是护城河,若DeepSeek开源CUDA替代方案,情况将如何变化?
DeepSeek虽使用PTX,但仍依赖CUDA生态,不过展示了优化其他GPU的能力。DeepSeek已与AMD、华为等合作,支持多种硬件。此外,DeepSeek-R1编写代码显著提升了大模型推理框架的速度,表明AI有能力编写高效底层代码,甚至优化自身。
原文链接
摩尔线程宣布其自研统一系统架构MUSA已完成与开源计算机视觉库OpenCV的适配,并正式发布OpenCV-MUSA开源项目,旨在为用户提供在MUSA设备上的加速支持。OpenCV作为计算机视觉领域的核心工具,在自动驾驶、医疗影像、安防监控等领域广泛应用。通过新增MUSA设备后端并适配编译脚本,OpenCV-MUSA已支持包括core、mudev、musaarithm等在内的多个模块,覆盖大部分cv::cuda命名空间下的数据结构及API,尤其是GpuMat。开发者只需替换命名空间,即可在MUSA设备上实现相同功能。此项目现已开放源代码,供开发者使用与贡献。
原文链接
加载更多

暂无内容