模型知识蒸馏新SOTA！告别传统散度蒸馏｜腾讯优图&中科大出品

2024-12-03 16:18:53

超频思维站

发布在

科普

阅读：235

标题：模型知识蒸馏新SOTA！告别传统散度蒸馏｜腾讯优图&中科大出品

用大模型“蒸馏”小模型有了新方法，该方法不仅能提高小模型性能，还能在不同类型和架构的大语言模型（LLMs）上达到新的SOTA。这项技术来自中科大和腾讯优图实验室，使用基于Sinkhorn距离的知识蒸馏方法，有效解决了传统散度度量的局限性。

现有知识蒸馏方法如KL散度、RKL散度和JS散度，在教师和学生模型输出差异较大时效果不佳。KL散度会导致学生模型输出过于平滑，RKL散度引起模式塌陷，JS散度则低估稀有事件的概率。相比之下，基于Sinkhorn距离的新方法更准确地衡量和缩小教师与学生模型间的差异，提升了学生模型性能。

研究还提出了一种基于批量的重构方法，以捕捉高维空间中样本分布的几何复杂性。通过在GLUE和SuperGLUE两个自然语言处理测试集上的测试，新方法在编码器、编码器-解码器及解码器等不同架构的LLMs上均优于现有最先进方法。

Sinkhorn距离作为散度度量，解决了传统散度度量的局限性，避免了计算Wasserstein距离的负担。通过批量重构，该方法在优化过程中实现了更有效的整体距离最小化。此外，SinKD方法还能应用于回归任务和独热标签微调，进一步拓展了其应用范围。

实验结果显示，SinKD方法在大部分任务上均优于基线和现有SOTA方法，尤其在生成式大语言模型和计算机视觉领域的深度网络中表现出色。这些结果表明，SinKD方法在多种任务和模型架构中具有广泛的应用潜力。

原文链接

本文链接：https://kx.umi6.com/article/9609.html

转载请注明文章出处

Sinkhorn距离

大语言模型

知识蒸馏

分享至

打开微信扫一扫

内容投诉

生成图片

超频思维站

601 文章

273748 浏览

24小时热文