1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
全国首个3万卡AI集群上线:兼容CUDA 可支持万亿参数大模型
2月5日,中科曙光宣布全国首个3万卡AI超集群正式上线,部署于国家超算互联网郑州核心节点。该集群基于scaleX架构,兼容CUDA等主流软件生态,支持多品牌国产加速卡混合部署,并可扩展至十万卡甚至百万卡规模,满足产业规模化需求。系统已适配优化400多个主流大模型,支持万亿参数模型训练及高通量推理,广泛赋能科研与产业应用。例如,助力国内某材料研发大模型登顶国际榜单,将蛋白质研究效率提升3-6个数量级。此外,搭配OneScience平台,降低多学科交叉研究门槛,实现“算力+应用”一体化交付。这是自2025年12月HAIC大会首次亮相后,不到2个月完成的大规模算力落地。
神经网络领航员
02-05 22:13:01
3万卡AI集群
CUDA兼容
万亿参数大模型
分享至
打开微信扫一扫
内容投诉
生成图片
天下苦CUDA久矣,又一国产方案上桌了
标题:天下苦CUDA久矣,又一国产方案上桌了 正文: 允中 发自 凹非寺 量子位 | 公众号 QbitAI 国产算力基建发展多年,核心问题始终是:芯片够多吗?但对开发者来说,更扎心的问题是:好用吗? 如果把AI开发比作做饭,现在的尴尬在于——虽然国产硬件越来越多,但大厨们仍习惯用进口生态...
心智奇点
01-30 22:53:26
CUDA
KernelCAT
算子开发
分享至
打开微信扫一扫
内容投诉
生成图片
连英伟达都开始抄作业,国内 AI 的野路子有点猛
2026年初,英伟达推出名为CUDA Tile的GPU编程语言,被业内认为是向中国技术‘取经’。此前,2024年一个中国团队开发了类似的TileLang语言,其高效性和跨平台特性引发关注。TileLang通过简化线程调度和数据复用,大幅提升开发效率与性能,减少了对英伟达硬件的依赖。英伟达此举被视为应对国内技术创新压力的举措,试图重新掌控GPU编程生态。然而,TileLang因不绑定特定硬件,仍具独特优势,为开发者提供了更多选择。这一趋势表明,开放技术路线正逐步挑战传统垄断地位,类似DirectX与Vulkan的竞争或将重现。
神经网络领航员
01-14 11:30:26
CUDA Tile
GPU编程
TileLang
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++
2025年,英伟达发布CUDA 13.1,推出革命性CUDA Tile编程模型,开发者可用15行Python代码实现媲美200行C++的GPU性能。新模型将数据组织为Tile,编译器自动优化硬件映射,大幅降低开发门槛,特别适合AI算法开发。新增功能包括cuBLAS FP64仿真、Grouped GEMM API加速MoE场景等,同时Nsight工具支持Tile内核分析。尽管Tile模型提升跨代GPU兼容性,但英伟达强调其基于CUDA生态,迁移至其他厂商硬件仍需重写代码。芯片界传奇Jim Keller质疑此举可能削弱CUDA护城河,因其抽象层次更高,或使AI内核更易移植至AMD、Intel等平台。此次更新显著降低了高性能GPU编程的技术壁垒,惠及更多开发者与研究者。
AI思维矩阵
12-08 14:30:13
CUDA Tile
GPU编程
英伟达
分享至
打开微信扫一扫
内容投诉
生成图片
首款全国产训推一体 AI 芯片:中诚华隆 HL 系列发布,兼容 CUDA 生态
11月19日,中诚华隆在北京发布首款全国产训推一体AI芯片HL系列。HL100采用自研GPGPU+NPU融合架构,FP16算力达256 TFLOPS,支持128GB LPDDR5显存,兼容CUDA生态,显存容量为国外某AI芯片的1.33倍。该芯片能效比3.41 TFLOPS/W,同等功耗下算力为国外芯片的8倍,总拥有成本仅为1/4,支持灵活扩展至千卡规模。此外,中诚华隆规划了未来三代产品(HL200、HL200Pro、HL400),原生支持FP8/FP4,对标国际主流性能,满足下一代生成式AI需求。中诚华隆成立于2017年,专注于自主可控的通算、智算等基础设施建设。
镜像现实MirageX
11-21 18:37:46
CUDA生态兼容
中诚华隆HL系列
全国产AI芯片
分享至
打开微信扫一扫
内容投诉
生成图片
冲击英伟达护城河:微软被曝已开发新工具,可将 CUDA 代码转译至 AMD 芯片运行
11月10日,微软被曝开发新工具包,可将英伟达CUDA代码转译至AMD ROCm平台运行。该工具通过Runtime兼容层技术,动态翻译CUDA API调用为ROCm指令,降低开发者迁移门槛。此举旨在打破英伟达在AI领域的CUDA生态霸权,推动硬件多样化。随着AI推理需求增长,昂贵的英伟达GPU推高成本,微软希望借助AMD芯片(如MI300X系列)提供更经济的算力选择。这一战略可能改变市场格局,削弱英伟达垄断地位,促进AI硬件与软件生态的开放性。
神经网络领航员
11-10 11:09:25
AMD ROCm
CUDA
微软工具包
分享至
打开微信扫一扫
内容投诉
生成图片
AI狂飙,地基不牢
2025年9月,甲骨文公司宣布投入16亿美元进行大规模重组,裁员可能超3000人,重心转向AI基础设施。为履行与OpenAI等公司签署的云协议,甲骨文计划每年在数据中心投入数十亿美元,导致现金流自1992年以来首次转负。其股价年内上涨近90%,AI基础设施收入增长55%,预计五年内达1440亿美元。与此同时,全球科技行业面临产能危机,微软、亚马逊等巨头也加大投资优化AI专用设施,但英伟达GPU短缺等问题制约发展。中国国产AI芯片市场规模达380亿美元,但软件生态仍依赖CUDA,技术差距亟待解决。
Nebula
10-01 02:35:19
AI基础设施
CUDA生态
甲骨文重组
分享至
打开微信扫一扫
内容投诉
生成图片
股价逼近茅台,寒武纪还能走多远?
2025年8月,A股市场见证寒武纪股价飙升,22日涨停涨幅达20%,市值突破5200亿元,超越中芯国际成半导体行业龙头;25日再涨11.4%,市值逼近5800亿元,直追贵州茅台。此轮暴涨源于AI公司DeepSeek发布适配国产芯片的UE8M0 FP8技术,激发市场对国产算力未来的想象。然而,寒武纪市盈率高达4010倍,盈利能力尚不稳固,Q1净利润3.55亿元中有较大比例依赖非经常性损益,基本面存疑。同时,国内竞争激烈,国际CUDA生态壁垒高企,寒武纪突围之路挑战重重。资本市场对其寄予厚望,但千倍市盈与现实基本面的巨大落差,让其未来充满不确定性。
跨界思维
08-28 11:21:08
CUDA
FP8
寒武纪
分享至
打开微信扫一扫
内容投诉
生成图片
苹果向英伟达生态妥协了!MLX框架主动适配CUDA
2025年7月,苹果宣布其MLX框架新增对英伟达CUDA的支持,引发广泛关注。MLX是苹果专为端侧AI模型训练推出的开源框架,此前主要适配自研芯片。由于英伟达CUDA生态在AI开发领域的主导地位及其市值突破4万亿美元的强势表现,苹果选择妥协,主动拥抱CUDA以满足开发者需求。此举允许苹果开发者利用英伟达GPU训练模型,并提升跨平台部署效率。这一战略调整被视作苹果十年来的重要举措,也再次引发对其与英伟达“陈年旧怨”的讨论。CUDA作为英伟达的核心护城河,拥有超500万开发者和4万家企业支持,苹果此举意在借力CUDA生态扩大自身AI市场影响力,同时规避法律风险。
AI创想团
07-17 14:22:02
CUDA
英伟达
苹果
分享至
打开微信扫一扫
内容投诉
生成图片
苹果 AI 框架 MLX 正新增英伟达 CUDA 支持,助开发者降低硬件成本
7月16日,苹果专为Apple Silicon设计的机器学习框架MLX正新增对英伟达CUDA的支持。这一更新允许开发者在Apple Silicon Mac上开发应用后,导出至CUDA环境运行,从而降低硬件成本。此前,由于MLX深度集成于Metal框架,无法在macOS外运行,开发者需额外硬件完成部署测试。新支持由GitHub开发者@zcbenz主导,通过模块化逐步并入MLX主分支。该功能仅限从苹果环境导出代码至Nvidia硬件运行,不能直接在Mac上使用Nvidia显卡或运行基于CUDA的项目。此举有助于小规模开发者节省开支,并结合Nvidia硬件的高性能提升算力支持。
未来编码者
07-16 10:01:47
Apple Silicon
CUDA支持
MLX框架
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序