随着大模型的迅速发展,指令调优成为了提升模型性能和泛化能力的关键环节。然而,当前在指令调优数据集的选择与评估方面,尚无统一的标准与方法,且缺乏系统性的综述。为填补这一空白,腾讯优图实验室发布了一篇详尽的综述文章,全文超过万字,囊括了400余篇相关文献。
本文旨在全面评估指令调优数据集,从质量、多样性和重要性三个维度出发,深入探讨数据评估与选择的方法。在质量评估部分,文章总结了四类方法:手工设计指标、基于模型的指标、利用GPT进行自动评分以及人工评价。其中,手工设计指标侧重于词汇、句法、语义等方面的评估;基于模型的指标则利用训练模型,如困惑度、多维评分评估器等,综合考量多种训练感知指标;GPT评分则通过与OpenAI API的交互,实现与人类偏好的高度对齐;人工评价则在构建偏好对齐数据集中不可或缺,但需注意标注不一致问题,可通过GPT评分等辅助手段进行补充。
在多样性评估方面,文章同样归纳了四类方法:手工设计的指标、基于模型的指标、基于几何特征的Coreset采样以及基于Bi-level的Coreset采样。手工设计的指标包括词汇多样性、语义多样性等;基于模型的指标则通过熵、Task2Vec嵌入、多样性标记等方法进行评估;Coreset采样则通过k-center greedy、herding等方法选取最具信息和多样性的子集;Bi-level优化下的Coreset采样则通过优化硬掩码或软权重来选择子集,以提高模型性能。
对于重要性评估,文章列举了四类指标与方法:手工设计的指标、基于模型的指标、基于Loss和Error的Coreset采样以及基于梯度的Coreset采样。手工设计的指标通过评估文本难度选择具有挑战性的样本;基于模型的指标则通过不确定性、奖励分数、数据模型等方法评估样本的重要性;Loss和Error的Coreset采样通过记录样本的错误来估计其重要性;基于梯度的Coreset采样则利用梯度匹配和梯度影响等技术选择数据点。
文章最后指出,尽管在数据选择上已取得显著进展,但仍面临一系列挑战,包括评估损失与基准性能的相关性弱、数据污染等问题。未来研究应构建专门的基准来评估指令调优模型和数据点选择,并分离数据选择与模型评估过程。此外,还需解决数据集扩大带来的成本效率问题,发展高效代理模型,并重新审视优化技巧和降维方法,以适应不断增长的大模型需求。
.png)

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24