苹果发现模型蒸馏Scaling Law！教师模型并非越强越好

2025-02-14 16:41:33

WisdomTrail

发布在

科普

阅读：551

苹果发现模型蒸馏Scaling Law！教师模型并非越强越好

克雷西发自凹非寺 | 量子位 | 公众号 QbitAI

苹果最新研究揭示了大模型蒸馏的Scaling Law，即学生模型和教师模型能力间的幂律关系。研究发现，教师模型并非越强越好，过强的教师模型可能导致学生模型性能恶化。

研究显示，学生模型的损失随教师模型损失降低整体呈下降趋势。但当教师模型能力远超学生模型时，继续提升教师性能的边际效用递减，学生模型性能可能反而变差。这表明存在一个转折点，两侧分别呈现不同形式的幂律关系。

基于这些发现，作者针对模型蒸馏过程中的计算资源分配提出建议，帮助根据学生模型规模、可用资源等因素选择更有效的分配方式。例如，当总预算较小时，大部分资源应分配给教师模型训练；当预算较大时，资源应在三部分间平均分配。

此外，如果教师模型需要从头训练且仅用于蒸馏单个学生模型，直接用所有资源监督训练学生模型，效果可能更好。

原文链接

本文链接：https://kx.umi6.com/article/13397.html

转载请注明文章出处

Scaling Law

教师模型

模型蒸馏

分享至

打开微信扫一扫

内容投诉

生成图片

WisdomTrail

599 文章

347548 浏览

24小时热文