FP4 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

与国产AI分裂 NVIDIA最强AI显卡GB300强化FP4：能效暴增50倍

2025年8月29日，NVIDIA发布财报显示业绩暴涨，其新一代AI显卡GB300将于4季度上市。GB300采用NVFP4算法标准，性能提升50%，精度接近FP8，内存占用减少2-3倍，能效提升50倍，适用于大模型训练。与此同时，国产AI算力领域推出UE8M0 FP8标准，全面适配新一代国产芯片，性能为此前2-3倍，并降低显存压力和功耗。尽管国产AI生态尚无法超越NVIDIA的CUDA体系，但此次协同标志着国产AI软硬件领域的重要进步，未来或可形成自身优势范围。

原文链接

WisdomTrail

08-29 21:45:12

FP4

GB300

Nvidia

分享至

打开微信扫一扫

内容投诉

生成图片

推理成本骤降75%！gpt-oss用新数据类型实现4倍推理速度，80GB显卡能跑1200亿参数大模型

2025年8月10日，OpenAI发布的开源模型gpt-oss采用MXFP4数据类型，将推理成本降低75%，推理速度提升4倍。新数据类型使1200亿参数的大模型可在80GB显存的显卡上运行，16GB显存即可支持200亿参数版本。MXFP4通过压缩权重存储和优化内存带宽，显著减少硬件资源需求，其缩放机制确保精度损失最小化。尽管MXFP4对硬件支持无严格要求，但性能优势需特定芯片（如Nvidia Blackwell）发挥最大效果。英伟达提出改进版NVFP4以进一步提升质量。OpenAI选择MXFP4表明其在大语言模型中的实用性。

原文链接

Nebula

08-11 16:04:21

MXFP4

大模型

推理成本

分享至

打开微信扫一扫

内容投诉

生成图片

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

微软推出首个FP4训练框架，实现与BF16相当的训练效果，所需存储和计算资源更少。该框架适用于高达130亿参数规模的模型，训练Token数量达千亿级别。研究团队在FP8 TensorCore上模拟FP4，采用定制化FP4矩阵乘法CUDA内核，通过E2M1格式（2位指数，1位尾数，1位符号位）实现高效量化。此框架对权重矩阵W和激活矩阵A采取不同粒度的量化策略，最大化利用FP4加速效果。为解决梯度问题，研究团队提出可微分梯度估计方法，并引入“离群点削峰和补偿”策略。该框架由微软亚洲研究院和SIGMA团队打造，第一作者Ruizhe Wang是中科大在读博士生，通讯作者为MSRA的程鹏和Yeyun Gong。

原文链接

量子思考者

01-30 13:29:24

FP4训练框架

大模型训练

微软

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达迷你超算遭友商嘲讽：宣传 FP4 算力，实际“不如买个游戏电脑”

英伟达在CES 2025上发布了体积最小的AI超算Project DIGITS，将于5月发售，起价3000美元。该设备搭载Grace Blackwell超级芯片GB10，FP4运算能力达到1PFLOPs。然而，AMD芯片设计专家Raja Koduri实名吐槽，指出Project DIGITS在FP16下的表现还不如5070显卡，甚至接近Intel Arc B580。友商Tiny Corp更是讽刺称，3000美元的超算不过是诈骗，不如买个游戏电脑。据Tiny Corp称，Project DIGITS在FP8精度下只有500TFLOPs，而他们自家产品可达4PFLOPs。此外，英伟达正进军消费级CPU市场，首款产品Grace CPU已用于Project DIGITS，未来计划更进一步。

原文链接