哈佛、斯坦福和麻省理工的研究团队发现,大规模训练任务需要更高的精度。研究显示,Llama-3在不同数据量下,随着数据集增大,计算所需的精度也增加。这意味着低精度量化可能不再足够有效。
论文指出,以往人们倾向于量化以节省计算资源,但随着模型规模扩大,高精度变得必要。这一结论可能影响GPU设计,因为GPU性能提升部分依赖于低精度计算优化。
艾伦AI研究所的科学家评价该论文为“很长时间以来最重要的论文”,因为它揭示了量化的极限,对整个领域及GPU未来发展有重大影响。
研究还发现,如果量化在后训练阶段进行,更多预训练数据可能有害。高精度(如BF16)和下一代精度(如FP4)的预训练可能是次优选择。
论文提出了“精度感知”的Scaling Laws,旨在预测和优化不同精度下的模型训练和推理表现。研究结果显示,在较低精度下训练和推理都会导致性能下降。
研究还发现,后训练量化(PTQ)引起的性能退化随着模型训练数据量增加而加剧。论文中的公式能预测预训练和后训练的不同精度组合下的损失情况。
研究建议,在资源有限时,可以考虑使用较低精度训练更大模型;在低精度下训练时,可考虑增加模型规模;优化数据量,避免过度使用数据。
尽管如此,研究也有局限性,如固定模型架构,这可能不适用于所有情况。网友认为,若量化失败,还可以考虑扩展数据中心、使用更小的专业模型或知识蒸馏等方法。
原文链接
本文链接:https://kx.umi6.com/article/8674.html
转载请注明文章出处
相关推荐
换一换
华泰证券:长期看好AI算力需求的持续增长
2025-07-28 08:07:00
不止OpenAI,谷歌和Anthropic AI模型开发也被爆遇瓶颈
2024-11-14 10:10:27
GPT-5被曝不及预期,OpenAI员工:没什么科学突破了,只需要工程
2024-11-11 16:48:08
四位大模型创业者聊 AGI、Scaling Law 和价格战
2024-06-16 10:11:05
反转,Claude 3.5超大杯没有训练失败
2024-12-13 18:28:51
SU 哈佛亚马逊最新研究:量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了
2024-11-16 16:31:57
OpenAI大改下代大模型方向,scaling law撞墙?AI社区炸锅了
2024-11-13 14:37:38
ICLR 2025:顶尖科学家最关心的 AI 趋势有哪些?丨GAIR Live
2025-04-28 11:48:41
钛动科技陈德品:Scaling Law在营销应用中也适用,AIGC内容正在催生爆款 | MEET2025
2024-12-26 12:31:35
Scaling Law首次在自动驾驶赛道被验证!小鹏汽车CVPR演讲详解
2025-06-16 14:08:23
现在的大模型现状,就是豪赌
2025-01-24 08:35:12
百度最早发现大模型中的scaling law?不用怀疑,对中国AI要有自信
2025-01-02 11:16:19
2025年AI十大趋势预测
2024-12-27 08:52:59
731 文章
651477 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08