标题:今日最热论文:Scaling Law终结,量化不再适用,AI大佬纷纷赞同
这篇论文一经发布便引起广泛关注,被业界视为“很长时间以来最重要的论文”。哈佛、斯坦福、MIT等团队的研究表明,训练的token越多,所需的精度就越高。
例如,Llama-3在不同数据量下(圆形8B、三角形70B、星星405B),随着数据集大小的增加,计算最优的精度也会增加。换句话说,大规模训练任务可能不再适合低精度量化。
结论指出,遵循Scaling Law意味着需要保持更高的精度,而低精度量化可能不再有效。这将影响GPU的设计和功能,因为传统上GPU的性能提升依赖于低精度计算的优化。
研究得出两个重要结论: 1. 后训练阶段进行量化可能导致预训练数据量越大反而越有害; 2. 在高精度(BF16)和下一代精度(FP4)下进行预训练可能不是最佳选择。
OpenAI员工对此表示赞同,认为研究结果将推动前沿技术的发展。
研究指出,当前扩展的焦点主要放在模型规模和数据量上,忽视了精度的重要性。随着模型的应用落地,低精度量化正在成为新趋势。因此,研究探讨了精度、参数和数据之间的权衡及其在预训练和推理中的表现。
研究发现,在较低精度下训练模型会导致较高损失,而在推理时使用低精度会导致性能下降。这解释了为何Llama-3难以量化,即模型在预训练阶段看到的数据越多,对量化的敏感性越高。此外,后训练量化引起的性能退化随模型训练数据量的增加而增加。
研究提出利用“精度感知”的Scaling Laws来预测模型在不同精度下的性能,并提供了两个关键公式。研究最终将后训练量化和预训练量化的影响统一起来,以预测预训练和后训练的损失。
研究建议: 1. 在资源有限时,可以考虑使用较低的精度来训练更大的模型; 2. 在低精度下训练时,可以考虑增加模型的规模; 3. 优化数据量,提高数据使用率,避免在预训练时使用过多的数据。
尽管该研究具有重要意义,但也存在一些局限性,例如只使用固定模型架构来控制变量。网友提出,一旦量化失败,可考虑扩展数据中心、转向更小的专业模型或知识蒸馏等方法。
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21