苹果发现模型蒸馏Scaling Law!教师模型并非越强越好
克雷西 发自 凹非寺 | 量子位 | 公众号 QbitAI
苹果最新研究揭示了大模型蒸馏的Scaling Law,即学生模型和教师模型能力间的幂律关系。研究发现,教师模型并非越强越好,过强的教师模型可能导致学生模型性能恶化。
研究显示,学生模型的损失随教师模型损失降低整体呈下降趋势。但当教师模型能力远超学生模型时,继续提升教师性能的边际效用递减,学生模型性能可能反而变差。这表明存在一个转折点,两侧分别呈现不同形式的幂律关系。
基于这些发现,作者针对模型蒸馏过程中的计算资源分配提出建议,帮助根据学生模型规模、可用资源等因素选择更有效的分配方式。例如,当总预算较小时,大部分资源应分配给教师模型训练;当预算较大时,资源应在三部分间平均分配。
此外,如果教师模型需要从头训练且仅用于蒸馏单个学生模型,直接用所有资源监督训练学生模型,效果可能更好。
原文链接
本文链接:https://kx.umi6.com/article/13397.html
转载请注明文章出处
相关推荐
换一换
阶跃星辰CEO姜大昕:Scaling Law中短期内依然处于陡峭曲线
2024-07-06 19:07:02
首个被人类骗钱的 AI 诞生:近 5 万美元不翼而飞,马斯克转发
2024-11-30 14:15:48
Claude三巨头回应一切!Opus3.5仍可能发布,5小时视频10万人围观
2024-11-12 17:08:51
开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law
2024-12-17 13:02:03
DeepSeek-R1 模型发布,性能对标 OpenAI o1 正式版
2025-01-20 22:24:20
Scaling Law终结,量化也不管用,AI大佬都在审视这篇论文
2024-11-13 16:46:53
今日最热论文:Scaling Law终结,量化也不管用,AI大佬齐刷刷附议
2024-11-13 15:39:06
AI“规模暴力”真的失效了吗?
2024-11-19 13:45:24
对话智谱CEO张鹏:大家对大模型期待过高,Scaling Law还有很大增长空间
2024-11-29 13:53:52
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
2025-12-22 13:45:27
又到年底,那些AGI预言“实现”到哪一步了?
2024-11-26 08:24:17
Scaling Law只适用于AI大模型,不适用于风投?
2024-07-08 14:04:49
OpenAI大改下代大模型方向,scaling law撞墙?AI社区炸锅了
2024-11-13 14:37:38
721 文章
616012 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41