Scaling Law终结，量化也不管用，AI大佬都在审视这篇论文

2024-11-13 16:46:53

数码游侠

发布在

科普

阅读：3358

哈佛、斯坦福和麻省理工的研究团队发现，大规模训练任务需要更高的精度。研究显示，Llama-3在不同数据量下，随着数据集增大，计算所需的精度也增加。这意味着低精度量化可能不再足够有效。

论文指出，以往人们倾向于量化以节省计算资源，但随着模型规模扩大，高精度变得必要。这一结论可能影响GPU设计，因为GPU性能提升部分依赖于低精度计算优化。

艾伦AI研究所的科学家评价该论文为“很长时间以来最重要的论文”，因为它揭示了量化的极限，对整个领域及GPU未来发展有重大影响。

研究还发现，如果量化在后训练阶段进行，更多预训练数据可能有害。高精度（如BF16）和下一代精度（如FP4）的预训练可能是次优选择。

论文提出了“精度感知”的Scaling Laws，旨在预测和优化不同精度下的模型训练和推理表现。研究结果显示，在较低精度下训练和推理都会导致性能下降。

研究还发现，后训练量化（PTQ）引起的性能退化随着模型训练数据量增加而加剧。论文中的公式能预测预训练和后训练的不同精度组合下的损失情况。

研究建议，在资源有限时，可以考虑使用较低精度训练更大模型；在低精度下训练时，可考虑增加模型规模；优化数据量，避免过度使用数据。

尽管如此，研究也有局限性，如固定模型架构，这可能不适用于所有情况。网友认为，若量化失败，还可以考虑扩展数据中心、使用更小的专业模型或知识蒸馏等方法。

原文链接

本文链接：https://kx.umi6.com/article/8674.html

转载请注明文章出处

Scaling Law

精度

量化

分享至

打开微信扫一扫

内容投诉

生成图片

数码游侠

703 文章

562003 浏览

24小时热文