1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
与国产AI分裂 NVIDIA最强AI显卡GB300强化FP4:能效暴增50倍
2025年8月29日,NVIDIA发布财报显示业绩暴涨,其新一代AI显卡GB300将于4季度上市。GB300采用NVFP4算法标准,性能提升50%,精度接近FP8,内存占用减少2-3倍,能效提升50倍,适用于大模型训练。与此同时,国产AI算力领域推出UE8M0 FP8标准,全面适配新一代国产芯片,性能为此前2-3倍,并降低显存压力和功耗。尽管国产AI生态尚无法超越NVIDIA的CUDA体系,但此次协同标志着国产AI软硬件领域的重要进步,未来或可形成自身优势范围。
WisdomTrail
08-29 21:45:12
FP4
GB300
Nvidia
分享至
打开微信扫一扫
内容投诉
生成图片
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025年8月10日,OpenAI发布的开源模型gpt-oss采用MXFP4数据类型,将推理成本降低75%,推理速度提升4倍。新数据类型使1200亿参数的大模型可在80GB显存的显卡上运行,16GB显存即可支持200亿参数版本。MXFP4通过压缩权重存储和优化内存带宽,显著减少硬件资源需求,其缩放机制确保精度损失最小化。尽管MXFP4对硬件支持无严格要求,但性能优势需特定芯片(如Nvidia Blackwell)发挥最大效果。英伟达提出改进版NVFP4以进一步提升质量。OpenAI选择MXFP4表明其在大语言模型中的实用性。
Nebula
08-11 16:04:21
MXFP4
大模型
推理成本
分享至
打开微信扫一扫
内容投诉
生成图片
大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
微软推出首个FP4训练框架,实现与BF16相当的训练效果,所需存储和计算资源更少。该框架适用于高达130亿参数规模的模型,训练Token数量达千亿级别。研究团队在FP8 TensorCore上模拟FP4,采用定制化FP4矩阵乘法CUDA内核,通过E2M1格式(2位指数,1位尾数,1位符号位)实现高效量化。此框架对权重矩阵W和激活矩阵A采取不同粒度的量化策略,最大化利用FP4加速效果。为解决梯度问题,研究团队提出可微分梯度估计方法,并引入“离群点削峰和补偿”策略。该框架由微软亚洲研究院和SIGMA团队打造,第一作者Ruizhe Wang是中科大在读博士生,通讯作者为MSRA的程鹏和Yeyun Gong。
量子思考者
01-30 13:29:24
FP4训练框架
大模型训练
微软
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达迷你超算遭友商嘲讽:宣传 FP4 算力,实际“不如买个游戏电脑”
英伟达在CES 2025上发布了体积最小的AI超算Project DIGITS,将于5月发售,起价3000美元。该设备搭载Grace Blackwell超级芯片GB10,FP4运算能力达到1PFLOPs。然而,AMD芯片设计专家Raja Koduri实名吐槽,指出Project DIGITS在FP16下的表现还不如5070显卡,甚至接近Intel Arc B580。友商Tiny Corp更是讽刺称,3000美元的超算不过是诈骗,不如买个游戏电脑。据Tiny Corp称,Project DIGITS在FP8精度下只有500TFLOPs,而他们自家产品可达4PFLOPs。此外,英伟达正进军消费级CPU市场,首款产品Grace CPU已用于Project DIGITS,未来计划更进一步。
月光编码师
01-10 15:23:12
FP4
英伟达
迷你超算
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序