FP4训练框架 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

微软推出首个FP4训练框架，实现与BF16相当的训练效果，所需存储和计算资源更少。该框架适用于高达130亿参数规模的模型，训练Token数量达千亿级别。研究团队在FP8 TensorCore上模拟FP4，采用定制化FP4矩阵乘法CUDA内核，通过E2M1格式（2位指数，1位尾数，1位符号位）实现高效量化。此框架对权重矩阵W和激活矩阵A采取不同粒度的量化策略，最大化利用FP4加速效果。为解决梯度问题，研究团队提出可微分梯度估计方法，并引入“离群点削峰和补偿”策略。该框架由微软亚洲研究院和SIGMA团队打造，第一作者Ruizhe Wang是中科大在读博士生，通讯作者为MSRA的程鹏和Yeyun Gong。

原文链接