苹果发现模型蒸馏Scaling Law!教师模型并非越强越好
克雷西 发自 凹非寺 | 量子位 | 公众号 QbitAI
苹果最新研究揭示了大模型蒸馏的Scaling Law,即学生模型和教师模型能力间的幂律关系。研究发现,教师模型并非越强越好,过强的教师模型可能导致学生模型性能恶化。
研究显示,学生模型的损失随教师模型损失降低整体呈下降趋势。但当教师模型能力远超学生模型时,继续提升教师性能的边际效用递减,学生模型性能可能反而变差。这表明存在一个转折点,两侧分别呈现不同形式的幂律关系。
基于这些发现,作者针对模型蒸馏过程中的计算资源分配提出建议,帮助根据学生模型规模、可用资源等因素选择更有效的分配方式。例如,当总预算较小时,大部分资源应分配给教师模型训练;当预算较大时,资源应在三部分间平均分配。
此外,如果教师模型需要从头训练且仅用于蒸馏单个学生模型,直接用所有资源监督训练学生模型,效果可能更好。
原文链接
本文链接:https://kx.umi6.com/article/13397.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI附议Ilya预训练终结!“但Scaling Law还没死”
2024-12-16 11:32:52
Scaling Law终结,量化也不管用,AI大佬都在审视这篇论文
2024-11-13 16:46:53
ICLR 2025:顶尖科学家最关心的 AI 趋势有哪些?丨GAIR Live
2025-04-28 11:48:41
张宏江消除“Scaling Law放缓”恐惧,直言未来将迎来“自主智能”的世界
2024-12-07 17:49:03
Scaling Law只适用于AI大模型,不适用于风投?
2024-07-08 14:04:49
智源王仲远:多模态大模型对产业更加重要,得多模态大模型得天下
2024-12-31 12:40:05
AI规模定律:为什么Scaling Law如此重要?
2024-08-30 12:54:15
Scaling Law遭遇瓶颈,OpenAI被曝押注智能体“Operator”
2024-11-18 11:19:38
视觉模型智能涌现后, Scaling Law 不会到头
2024-11-22 12:00:19
千寻智能解浚源:具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈
2025-04-30 20:23:36
百度最早发现大模型中的scaling law?不用怀疑,对中国AI要有自信
2025-01-02 11:16:19
Scaling Law再遭质疑:“退化式AI”竟成终局?
2025-08-04 21:03:25
GPT-5被曝不及预期,OpenAI员工:没什么科学突破了,只需要工程
2024-11-11 16:48:08
540 文章
254179 浏览
24小时热文
更多

-
2025-10-23 11:04:07
-
2025-10-23 11:03:14
-
2025-10-23 11:03:01