今日最热论文：Scaling Law终结，量化也不管用，AI大佬齐刷刷附议

2024-11-13 15:39:06

跨界思维

发布在

科普

阅读：463

标题：今日最热论文：Scaling Law终结，量化不再适用，AI大佬纷纷赞同

这篇论文一经发布便引起广泛关注，被业界视为“很长时间以来最重要的论文”。哈佛、斯坦福、MIT等团队的研究表明，训练的token越多，所需的精度就越高。

例如，Llama-3在不同数据量下（圆形8B、三角形70B、星星405B），随着数据集大小的增加，计算最优的精度也会增加。换句话说，大规模训练任务可能不再适合低精度量化。

结论指出，遵循Scaling Law意味着需要保持更高的精度，而低精度量化可能不再有效。这将影响GPU的设计和功能，因为传统上GPU的性能提升依赖于低精度计算的优化。

研究得出两个重要结论： 1. 后训练阶段进行量化可能导致预训练数据量越大反而越有害； 2. 在高精度（BF16）和下一代精度（FP4）下进行预训练可能不是最佳选择。

OpenAI员工对此表示赞同，认为研究结果将推动前沿技术的发展。

研究指出，当前扩展的焦点主要放在模型规模和数据量上，忽视了精度的重要性。随着模型的应用落地，低精度量化正在成为新趋势。因此，研究探讨了精度、参数和数据之间的权衡及其在预训练和推理中的表现。

研究发现，在较低精度下训练模型会导致较高损失，而在推理时使用低精度会导致性能下降。这解释了为何Llama-3难以量化，即模型在预训练阶段看到的数据越多，对量化的敏感性越高。此外，后训练量化引起的性能退化随模型训练数据量的增加而增加。

研究提出利用“精度感知”的Scaling Laws来预测模型在不同精度下的性能，并提供了两个关键公式。研究最终将后训练量化和预训练量化的影响统一起来，以预测预训练和后训练的损失。

研究建议： 1. 在资源有限时，可以考虑使用较低的精度来训练更大的模型； 2. 在低精度下训练时，可以考虑增加模型的规模； 3. 优化数据量，提高数据使用率，避免在预训练时使用过多的数据。

尽管该研究具有重要意义，但也存在一些局限性，例如只使用固定模型架构来控制变量。网友提出，一旦量化失败，可考虑扩展数据中心、转向更小的专业模型或知识蒸馏等方法。

原文链接

本文链接：https://kx.umi6.com/article/8660.html

转载请注明文章出处

Scaling Law

精度

量化

分享至

打开微信扫一扫

内容投诉

生成图片

跨界思维

702 文章

586522 浏览

24小时热文