1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:模型知识蒸馏新SOTA!告别传统散度蒸馏|腾讯优图&中科大出品

用大模型“蒸馏”小模型有了新方法,该方法不仅能提高小模型性能,还能在不同类型和架构的大语言模型(LLMs)上达到新的SOTA。这项技术来自中科大和腾讯优图实验室,使用基于Sinkhorn距离的知识蒸馏方法,有效解决了传统散度度量的局限性。

现有知识蒸馏方法如KL散度、RKL散度和JS散度,在教师和学生模型输出差异较大时效果不佳。KL散度会导致学生模型输出过于平滑,RKL散度引起模式塌陷,JS散度则低估稀有事件的概率。相比之下,基于Sinkhorn距离的新方法更准确地衡量和缩小教师与学生模型间的差异,提升了学生模型性能。

研究还提出了一种基于批量的重构方法,以捕捉高维空间中样本分布的几何复杂性。通过在GLUE和SuperGLUE两个自然语言处理测试集上的测试,新方法在编码器、编码器-解码器及解码器等不同架构的LLMs上均优于现有最先进方法。

Sinkhorn距离作为散度度量,解决了传统散度度量的局限性,避免了计算Wasserstein距离的负担。通过批量重构,该方法在优化过程中实现了更有效的整体距离最小化。此外,SinKD方法还能应用于回归任务和独热标签微调,进一步拓展了其应用范围。

实验结果显示,SinKD方法在大部分任务上均优于基线和现有SOTA方法,尤其在生成式大语言模型和计算机视觉领域的深度网络中表现出色。这些结果表明,SinKD方法在多种任务和模型架构中具有广泛的应用潜力。

原文链接
本文链接:https://kx.umi6.com/article/9609.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI无处不在的小应用,与行业发展的大困局
2025-09-22 16:01:16
GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?
2025-08-23 07:59:01
王兴:美团将继续加大投资开发大语言模型,确保在中国拥有最佳团队
2025-05-26 21:51:58
小红书怎么一夜成为全世界网友都爱的翻译软件?
2025-01-20 21:24:11
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
2000美元一只“草莓”,OpenAI 新模型价格挑战用户底线?
2024-09-06 21:00:01
顺丰发布“丰语”大语言模型:摘要准确率超 95%,号称物流垂域能力超越通用模型
2024-09-10 19:32:12
模型知识蒸馏新SOTA!告别传统散度蒸馏|腾讯优图&中科大出品
2024-12-03 16:18:53
“给 AI 讲故事”就能绕过安全机制,恶意代码编写门槛恐将大幅降低
2025-03-19 23:56:20
警惕AI大模型的“共情鸿沟”,剑桥团队呼吁:我们需要“儿童安全人工智能”框架
2024-07-11 15:47:39
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
OpenAI 发布新模型 奥特曼:耐心时刻结束了
2024-09-16 01:58:25
LangChain《2024人工智能全景报告出炉》:OpenAI依旧是龙头 开源模型采用率上升
2024-12-24 14:35:00
24小时热文
更多
扫一扫体验小程序