1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

随着大模型的迅速发展,指令调优成为了提升模型性能和泛化能力的关键环节。然而,当前在指令调优数据集的选择与评估方面,尚无统一的标准与方法,且缺乏系统性的综述。为填补这一空白,腾讯优图实验室发布了一篇详尽的综述文章,全文超过万字,囊括了400余篇相关文献。

本文旨在全面评估指令调优数据集,从质量、多样性和重要性三个维度出发,深入探讨数据评估与选择的方法。在质量评估部分,文章总结了四类方法:手工设计指标、基于模型的指标、利用GPT进行自动评分以及人工评价。其中,手工设计指标侧重于词汇、句法、语义等方面的评估;基于模型的指标则利用训练模型,如困惑度、多维评分评估器等,综合考量多种训练感知指标;GPT评分则通过与OpenAI API的交互,实现与人类偏好的高度对齐;人工评价则在构建偏好对齐数据集中不可或缺,但需注意标注不一致问题,可通过GPT评分等辅助手段进行补充。

在多样性评估方面,文章同样归纳了四类方法:手工设计的指标、基于模型的指标、基于几何特征的Coreset采样以及基于Bi-level的Coreset采样。手工设计的指标包括词汇多样性、语义多样性等;基于模型的指标则通过熵、Task2Vec嵌入、多样性标记等方法进行评估;Coreset采样则通过k-center greedy、herding等方法选取最具信息和多样性的子集;Bi-level优化下的Coreset采样则通过优化硬掩码或软权重来选择子集,以提高模型性能。

对于重要性评估,文章列举了四类指标与方法:手工设计的指标、基于模型的指标、基于Loss和Error的Coreset采样以及基于梯度的Coreset采样。手工设计的指标通过评估文本难度选择具有挑战性的样本;基于模型的指标则通过不确定性、奖励分数、数据模型等方法评估样本的重要性;Loss和Error的Coreset采样通过记录样本的错误来估计其重要性;基于梯度的Coreset采样则利用梯度匹配和梯度影响等技术选择数据点。

文章最后指出,尽管在数据选择上已取得显著进展,但仍面临一系列挑战,包括评估损失与基准性能的相关性弱、数据污染等问题。未来研究应构建专门的基准来评估指令调优模型和数据点选择,并分离数据选择与模型评估过程。此外,还需解决数据集扩大带来的成本效率问题,发展高效代理模型,并重新审视优化技巧和降维方法,以适应不断增长的大模型需求。

相关项目主页:GitHub 论文链接:ArXiv

原文链接
本文链接:https://kx.umi6.com/article/5050.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型指令调优数据集万字评测!腾讯上交大联合出品
2024-08-16 06:41:13
荣耀设立20亿激励资源 提升智能体和MagicOS生态体验力度
2025-10-23 18:14:34
BBC 等机构研究评估 AI 工具新闻总结水平,谷歌 Gemini 错误比例最高
2025-10-24 08:27:09
OpenAI:欧洲业务增长强劲 将继续加大投入
2025-10-24 00:18:56
OpenAI也来了,巨头为何决战AI浏览器?
2025-10-23 10:04:31
自动驾驶,走出青春期
2025-10-23 15:09:02
荣耀与比亚迪达成战略合作,共同打造AI驱动的智慧出行新生态
2025-10-22 17:49:08
OpenAI掌舵人三年演讲梳理:一文读懂Altman
2025-10-22 18:50:58
多名用户状告美国联邦贸易委员会,称 ChatGPT 给自己造成严重心理伤害
2025-10-23 08:58:31
肖远企:目前AI在金融领域的应用仍处于早期阶段 无法取代人的决策
2025-10-23 16:12:32
马斯克:特斯拉正在努力“超额生产”AI5芯片
2025-10-23 09:00:35
OpenAI 视频生成应用 Sora 更新在即:编辑器、安卓版 App、社交功能……
2025-10-24 09:32:35
网易云信10周年宣布品牌升级,从“基础通信管道”到“AI交互引擎”
2025-10-23 15:10:38
24小时热文
更多
扫一扫体验小程序