微软推出首个FP4训练框架,实现与BF16相当的训练效果,所需存储和计算资源更少。该框架适用于高达130亿参数规模的模型,训练Token数量达千亿级别。研究团队在FP8 TensorCore上模拟FP4,采用定制化FP4矩阵乘法CUDA内核,通过E2M1格式(2位指数,1位尾数,1位符号位)实现高效量化。此框架对权重矩阵W和激活矩阵A采取不同粒度的量化策略,最大化利用FP4加速效果。为解决梯度问题,研究团队提出可微分梯度估计方法,并引入“离群点削峰和补偿”策略。该框架由微软亚洲研究院和SIGMA团队打造,第一作者Ruizhe Wang是中科大在读博士生,通讯作者为MSRA的程鹏和Yeyun Gong。
原文链接
本文链接:https://kx.umi6.com/article/12370.html
转载请注明文章出处
相关推荐
.png)
换一换
“蛋糕”被抢!微软百亿美元投资OpenAI 竟然投出一个竞争对手?
2025-06-26 11:57:42
股价再创新高!微软据称拟裁员数千人 以平衡AI投资支出
2025-06-19 09:54:47
微软据称已瞄准Meta多个团队 AI人才争夺战如火如荼!
2025-08-13 18:40:27
微软发布 Phi-4 系列小语言 AI 推理模型,AIME 2025 跑分超满血版 Deepseek R1
2025-05-01 16:28:11
微软CEO:与OpenAI的关系正在发生变化但依然牢固
2025-06-06 12:33:25
微软裁员9000人后:AI成为自救唯一之路?
2025-07-04 12:43:22
消息称微软与 OpenAI 正进行深入谈判:确保 AGI 时代技术合作
2025-07-29 21:35:30
“最佳 AI 拍档”合作裂痕初现:OpenAI 谋求独立、微软转向自研
2025-04-17 09:28:39
微软达夫卢里:下一代Windows系统的语音功能将更加重要
2025-08-14 22:06:23
昔日盟友关系破裂?OpenAI高管据称讨论起诉微软垄断行为
2025-06-17 12:23:06
微软被曝将“AI 使用量”纳入员工考核:不再是“可选项”,直接挂钩绩效
2025-06-30 20:47:16
腰斩:OpenAI 被曝削减微软收入分成,2030 年前分成比例不足 10%
2025-05-07 16:12:47
微软首次公开:已禁止员工使用DeepSeek应用!
2025-05-09 13:53:07
520 文章
207305 浏览
24小时热文
更多

-
2025-09-07 06:42:57
-
2025-09-07 00:40:01
-
2025-09-06 23:39:46