哈佛、斯坦福和麻省理工的研究团队发现,大规模训练任务需要更高的精度。研究显示,Llama-3在不同数据量下,随着数据集增大,计算所需的精度也增加。这意味着低精度量化可能不再足够有效。
论文指出,以往人们倾向于量化以节省计算资源,但随着模型规模扩大,高精度变得必要。这一结论可能影响GPU设计,因为GPU性能提升部分依赖于低精度计算优化。
艾伦AI研究所的科学家评价该论文为“很长时间以来最重要的论文”,因为它揭示了量化的极限,对整个领域及GPU未来发展有重大影响。
研究还发现,如果量化在后训练阶段进行,更多预训练数据可能有害。高精度(如BF16)和下一代精度(如FP4)的预训练可能是次优选择。
论文提出了“精度感知”的Scaling Laws,旨在预测和优化不同精度下的模型训练和推理表现。研究结果显示,在较低精度下训练和推理都会导致性能下降。
研究还发现,后训练量化(PTQ)引起的性能退化随着模型训练数据量增加而加剧。论文中的公式能预测预训练和后训练的不同精度组合下的损失情况。
研究建议,在资源有限时,可以考虑使用较低精度训练更大模型;在低精度下训练时,可考虑增加模型规模;优化数据量,避免过度使用数据。
尽管如此,研究也有局限性,如固定模型架构,这可能不适用于所有情况。网友认为,若量化失败,还可以考虑扩展数据中心、使用更小的专业模型或知识蒸馏等方法。
原文链接
本文链接:https://kx.umi6.com/article/8674.html
转载请注明文章出处
相关推荐
换一换
视觉模型智能涌现后, Scaling Law 不会到头
2024-11-22 12:00:19
2025年AI十大趋势预测
2024-12-27 08:52:59
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
2024-06-15 13:49:34
深度解读:AI产业10大分歧
2024-08-25 13:19:51
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
2024-11-28 09:19:46
Scaling Law只适用于AI大模型,不适用于风投?
2024-07-08 14:04:49
今日最热论文:Scaling Law终结,量化也不管用,AI大佬齐刷刷附议
2024-11-13 15:39:06
开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law
2024-12-17 13:02:03
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”
2024-11-18 11:19:38
微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑,性能与同规模全精度开源模型相当
2025-04-21 12:38:13
AI“规模暴力”真的失效了吗?
2024-11-19 13:45:24
Claude翻车:Opus 4.1白天退化,Anthropic承认并回滚更新
2025-09-01 18:21:10
反转,Claude 3.5超大杯没有训练失败
2024-12-13 18:28:51
703 文章
562003 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21