大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

2025-01-30 13:29:24

量子思考者

发布在

科普

阅读：702

微软推出首个FP4训练框架，实现与BF16相当的训练效果，所需存储和计算资源更少。该框架适用于高达130亿参数规模的模型，训练Token数量达千亿级别。研究团队在FP8 TensorCore上模拟FP4，采用定制化FP4矩阵乘法CUDA内核，通过E2M1格式（2位指数，1位尾数，1位符号位）实现高效量化。此框架对权重矩阵W和激活矩阵A采取不同粒度的量化策略，最大化利用FP4加速效果。为解决梯度问题，研究团队提出可微分梯度估计方法，并引入“离群点削峰和补偿”策略。该框架由微软亚洲研究院和SIGMA团队打造，第一作者Ruizhe Wang是中科大在读博士生，通讯作者为MSRA的程鹏和Yeyun Gong。

原文链接

本文链接：https://kx.umi6.com/article/12370.html

转载请注明文章出处

FP4训练框架