1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:今日最热论文:Scaling Law终结,量化不再适用,AI大佬纷纷赞同

这篇论文一经发布便引起广泛关注,被业界视为“很长时间以来最重要的论文”。哈佛、斯坦福、MIT等团队的研究表明,训练的token越多,所需的精度就越高。

例如,Llama-3在不同数据量下(圆形8B、三角形70B、星星405B),随着数据集大小的增加,计算最优的精度也会增加。换句话说,大规模训练任务可能不再适合低精度量化。

结论指出,遵循Scaling Law意味着需要保持更高的精度,而低精度量化可能不再有效。这将影响GPU的设计和功能,因为传统上GPU的性能提升依赖于低精度计算的优化。

研究得出两个重要结论: 1. 后训练阶段进行量化可能导致预训练数据量越大反而越有害; 2. 在高精度(BF16)和下一代精度(FP4)下进行预训练可能不是最佳选择。

OpenAI员工对此表示赞同,认为研究结果将推动前沿技术的发展。

研究指出,当前扩展的焦点主要放在模型规模和数据量上,忽视了精度的重要性。随着模型的应用落地,低精度量化正在成为新趋势。因此,研究探讨了精度、参数和数据之间的权衡及其在预训练和推理中的表现。

研究发现,在较低精度下训练模型会导致较高损失,而在推理时使用低精度会导致性能下降。这解释了为何Llama-3难以量化,即模型在预训练阶段看到的数据越多,对量化的敏感性越高。此外,后训练量化引起的性能退化随模型训练数据量的增加而增加。

研究提出利用“精度感知”的Scaling Laws来预测模型在不同精度下的性能,并提供了两个关键公式。研究最终将后训练量化和预训练量化的影响统一起来,以预测预训练和后训练的损失。

研究建议: 1. 在资源有限时,可以考虑使用较低的精度来训练更大的模型; 2. 在低精度下训练时,可以考虑增加模型的规模; 3. 优化数据量,提高数据使用率,避免在预训练时使用过多的数据。

尽管该研究具有重要意义,但也存在一些局限性,例如只使用固定模型架构来控制变量。网友提出,一旦量化失败,可考虑扩展数据中心、转向更小的专业模型或知识蒸馏等方法。

原文链接
本文链接:https://kx.umi6.com/article/8660.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026
2025-12-21 10:35:20
现在的大模型现状,就是豪赌
2025-01-24 08:35:12
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
2024-06-15 13:49:34
ICLR 2025:顶尖科学家最关心的 AI 趋势有哪些?丨GAIR Live
2025-04-28 11:48:41
OpenAI附议Ilya预训练终结!“但Scaling Law还没死”
2024-12-16 11:32:52
OpenAI大改下代大模型方向,scaling law撞墙?AI社区炸锅了
2024-11-13 14:37:38
开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law
2024-12-17 13:02:03
Scaling Law百度最早提出!OpenAI/Claude受它启发,致谢中有Ilya
2024-11-28 09:19:46
不止OpenAI,谷歌和Anthropic AI模型开发也被爆遇瓶颈
2024-11-14 10:10:27
阶跃星辰CEO姜大昕:Scaling Law中短期内依然处于陡峭曲线
2024-07-06 19:07:02
Scaling Law陷入困局,强化学习才是全村的希望?
2024-09-12 14:51:17
百度最早发现大模型中的scaling law?不用怀疑,对中国AI要有自信
2025-01-02 11:16:19
AI规模定律:为什么Scaling Law如此重要?
2024-08-30 12:54:15
24小时热文
更多
扫一扫体验小程序