
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年8月29日,NVIDIA发布财报显示业绩暴涨,其新一代AI显卡GB300将于4季度上市。GB300采用NVFP4算法标准,性能提升50%,精度接近FP8,内存占用减少2-3倍,能效提升50倍,适用于大模型训练。与此同时,国产AI算力领域推出UE8M0 FP8标准,全面适配新一代国产芯片,性能为此前2-3倍,并降低显存压力和功耗。尽管国产AI生态尚无法超越NVIDIA的CUDA体系,但此次协同标志着国产AI软硬件领域的重要进步,未来或可形成自身优势范围。
原文链接
2025年8月10日,OpenAI发布的开源模型gpt-oss采用MXFP4数据类型,将推理成本降低75%,推理速度提升4倍。新数据类型使1200亿参数的大模型可在80GB显存的显卡上运行,16GB显存即可支持200亿参数版本。MXFP4通过压缩权重存储和优化内存带宽,显著减少硬件资源需求,其缩放机制确保精度损失最小化。尽管MXFP4对硬件支持无严格要求,但性能优势需特定芯片(如Nvidia Blackwell)发挥最大效果。英伟达提出改进版NVFP4以进一步提升质量。OpenAI选择MXFP4表明其在大语言模型中的实用性。
原文链接
微软推出首个FP4训练框架,实现与BF16相当的训练效果,所需存储和计算资源更少。该框架适用于高达130亿参数规模的模型,训练Token数量达千亿级别。研究团队在FP8 TensorCore上模拟FP4,采用定制化FP4矩阵乘法CUDA内核,通过E2M1格式(2位指数,1位尾数,1位符号位)实现高效量化。此框架对权重矩阵W和激活矩阵A采取不同粒度的量化策略,最大化利用FP4加速效果。为解决梯度问题,研究团队提出可微分梯度估计方法,并引入“离群点削峰和补偿”策略。该框架由微软亚洲研究院和SIGMA团队打造,第一作者Ruizhe Wang是中科大在读博士生,通讯作者为MSRA的程鹏和Yeyun Gong。
原文链接
英伟达在CES 2025上发布了体积最小的AI超算Project DIGITS,将于5月发售,起价3000美元。该设备搭载Grace Blackwell超级芯片GB10,FP4运算能力达到1PFLOPs。然而,AMD芯片设计专家Raja Koduri实名吐槽,指出Project DIGITS在FP16下的表现还不如5070显卡,甚至接近Intel Arc B580。友商Tiny Corp更是讽刺称,3000美元的超算不过是诈骗,不如买个游戏电脑。据Tiny Corp称,Project DIGITS在FP8精度下只有500TFLOPs,而他们自家产品可达4PFLOPs。此外,英伟达正进军消费级CPU市场,首款产品Grace CPU已用于Project DIGITS,未来计划更进一步。
原文链接
加载更多

暂无内容