标题:模型知识蒸馏新SOTA!告别传统散度蒸馏|腾讯优图&中科大出品
用大模型“蒸馏”小模型有了新方法,该方法不仅能提高小模型性能,还能在不同类型和架构的大语言模型(LLMs)上达到新的SOTA。这项技术来自中科大和腾讯优图实验室,使用基于Sinkhorn距离的知识蒸馏方法,有效解决了传统散度度量的局限性。
现有知识蒸馏方法如KL散度、RKL散度和JS散度,在教师和学生模型输出差异较大时效果不佳。KL散度会导致学生模型输出过于平滑,RKL散度引起模式塌陷,JS散度则低估稀有事件的概率。相比之下,基于Sinkhorn距离的新方法更准确地衡量和缩小教师与学生模型间的差异,提升了学生模型性能。
研究还提出了一种基于批量的重构方法,以捕捉高维空间中样本分布的几何复杂性。通过在GLUE和SuperGLUE两个自然语言处理测试集上的测试,新方法在编码器、编码器-解码器及解码器等不同架构的LLMs上均优于现有最先进方法。
Sinkhorn距离作为散度度量,解决了传统散度度量的局限性,避免了计算Wasserstein距离的负担。通过批量重构,该方法在优化过程中实现了更有效的整体距离最小化。此外,SinKD方法还能应用于回归任务和独热标签微调,进一步拓展了其应用范围。
实验结果显示,SinKD方法在大部分任务上均优于基线和现有SOTA方法,尤其在生成式大语言模型和计算机视觉领域的深度网络中表现出色。这些结果表明,SinKD方法在多种任务和模型架构中具有广泛的应用潜力。
原文链接
本文链接:https://kx.umi6.com/article/9609.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek使用技巧,你收藏这一篇就够了
2025-02-07 21:09:11
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
应该如何打造人工智能产品?
2024-06-15 08:48:21
鸿海首个大语言模型 FoxBrain 发布:具备推理能力,未来计划部分开源
2025-03-10 16:45:45
Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 20:00:09
阿里蔡崇信:AI 模型训练过程像教育孩子,某些方面学习三四年可达博士水平
2024-06-01 23:35:23
对话宇树科技创始人王兴兴:人形机器人大模型,还没走到“大力出奇迹”阶段
2024-08-22 09:27:42
多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
2024-11-20 13:09:34
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
模型知识蒸馏新SOTA!告别传统散度蒸馏|腾讯优图&中科大出品
2024-12-03 16:18:53
“学术剽窃”定义正被AI模糊,我们该如何应对?
2024-08-01 21:09:52
压缩算法为大语言模型“瘦身”
2024-11-22 08:57:50
601 文章
273748 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07