1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

随着大模型的迅速发展,指令调优成为了提升模型性能和泛化能力的关键环节。然而,当前在指令调优数据集的选择与评估方面,尚无统一的标准与方法,且缺乏系统性的综述。为填补这一空白,腾讯优图实验室发布了一篇详尽的综述文章,全文超过万字,囊括了400余篇相关文献。

本文旨在全面评估指令调优数据集,从质量、多样性和重要性三个维度出发,深入探讨数据评估与选择的方法。在质量评估部分,文章总结了四类方法:手工设计指标、基于模型的指标、利用GPT进行自动评分以及人工评价。其中,手工设计指标侧重于词汇、句法、语义等方面的评估;基于模型的指标则利用训练模型,如困惑度、多维评分评估器等,综合考量多种训练感知指标;GPT评分则通过与OpenAI API的交互,实现与人类偏好的高度对齐;人工评价则在构建偏好对齐数据集中不可或缺,但需注意标注不一致问题,可通过GPT评分等辅助手段进行补充。

在多样性评估方面,文章同样归纳了四类方法:手工设计的指标、基于模型的指标、基于几何特征的Coreset采样以及基于Bi-level的Coreset采样。手工设计的指标包括词汇多样性、语义多样性等;基于模型的指标则通过熵、Task2Vec嵌入、多样性标记等方法进行评估;Coreset采样则通过k-center greedy、herding等方法选取最具信息和多样性的子集;Bi-level优化下的Coreset采样则通过优化硬掩码或软权重来选择子集,以提高模型性能。

对于重要性评估,文章列举了四类指标与方法:手工设计的指标、基于模型的指标、基于Loss和Error的Coreset采样以及基于梯度的Coreset采样。手工设计的指标通过评估文本难度选择具有挑战性的样本;基于模型的指标则通过不确定性、奖励分数、数据模型等方法评估样本的重要性;Loss和Error的Coreset采样通过记录样本的错误来估计其重要性;基于梯度的Coreset采样则利用梯度匹配和梯度影响等技术选择数据点。

文章最后指出,尽管在数据选择上已取得显著进展,但仍面临一系列挑战,包括评估损失与基准性能的相关性弱、数据污染等问题。未来研究应构建专门的基准来评估指令调优模型和数据点选择,并分离数据选择与模型评估过程。此外,还需解决数据集扩大带来的成本效率问题,发展高效代理模型,并重新审视优化技巧和降维方法,以适应不断增长的大模型需求。

相关项目主页:GitHub 论文链接:ArXiv

原文链接
本文链接:https://kx.umi6.com/article/5050.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型指令调优数据集万字评测!腾讯上交大联合出品
2024-08-16 06:41:13
实测美团 LongCat:快到极致,但是别说追平 DeepSeek
2025-09-05 15:22:48
Waymo将于今年秋季在圣何塞机场测试无人驾驶汽车
2025-09-05 09:16:13
9.16-9.17来腾讯全球数字生态大会,与行业大咖「智者见智」共话AI增益新机
2025-09-04 20:06:13
习近平向2025世界智能产业博览会致贺信
2025-09-05 10:23:48
AI 的下一个战场:小模型崛起
2025-09-05 21:26:34
商汤大装置与华为昇腾 384 超节点全面适配,多项创新提升训练效率
2025-09-06 14:35:21
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
2025-09-05 13:18:29
一键照片“手办化”:谷歌 Gemini 上线“Nano Banana”文生图模型,无需访问 AI Studio
2025-09-06 22:39:24
中国电科王平:国内半导体装备已进入“战国时代”
2025-09-05 21:27:41
博通 FY2025Q3 营收同比增长 22%,拿下新客户 AI 芯片大单
2025-09-05 10:17:50
美团将上线AI搜索功能:基于用户行为与需求进行智能匹配
2025-09-05 19:24:24
中盐集团与中国移动签署战略合作协议
2025-09-05 11:18:12
24小时热文
更多
扫一扫体验小程序