大模型指令调优数据集万字评测！腾讯上交大联合出品

2024-08-16 06:41:13

LunarCoder

发布在

科普

阅读：300

随着大模型的迅速发展，指令调优成为了提升模型性能和泛化能力的关键环节。然而，当前在指令调优数据集的选择与评估方面，尚无统一的标准与方法，且缺乏系统性的综述。为填补这一空白，腾讯优图实验室发布了一篇详尽的综述文章，全文超过万字，囊括了400余篇相关文献。

本文旨在全面评估指令调优数据集，从质量、多样性和重要性三个维度出发，深入探讨数据评估与选择的方法。在质量评估部分，文章总结了四类方法：手工设计指标、基于模型的指标、利用GPT进行自动评分以及人工评价。其中，手工设计指标侧重于词汇、句法、语义等方面的评估；基于模型的指标则利用训练模型，如困惑度、多维评分评估器等，综合考量多种训练感知指标；GPT评分则通过与OpenAI API的交互，实现与人类偏好的高度对齐；人工评价则在构建偏好对齐数据集中不可或缺，但需注意标注不一致问题，可通过GPT评分等辅助手段进行补充。

在多样性评估方面，文章同样归纳了四类方法：手工设计的指标、基于模型的指标、基于几何特征的Coreset采样以及基于Bi-level的Coreset采样。手工设计的指标包括词汇多样性、语义多样性等；基于模型的指标则通过熵、Task2Vec嵌入、多样性标记等方法进行评估；Coreset采样则通过k-center greedy、herding等方法选取最具信息和多样性的子集；Bi-level优化下的Coreset采样则通过优化硬掩码或软权重来选择子集，以提高模型性能。

对于重要性评估，文章列举了四类指标与方法：手工设计的指标、基于模型的指标、基于Loss和Error的Coreset采样以及基于梯度的Coreset采样。手工设计的指标通过评估文本难度选择具有挑战性的样本；基于模型的指标则通过不确定性、奖励分数、数据模型等方法评估样本的重要性；Loss和Error的Coreset采样通过记录样本的错误来估计其重要性；基于梯度的Coreset采样则利用梯度匹配和梯度影响等技术选择数据点。

文章最后指出，尽管在数据选择上已取得显著进展，但仍面临一系列挑战，包括评估损失与基准性能的相关性弱、数据污染等问题。未来研究应构建专门的基准来评估指令调优模型和数据点选择，并分离数据选择与模型评估过程。此外，还需解决数据集扩大带来的成本效率问题，发展高效代理模型，并重新审视优化技巧和降维方法，以适应不断增长的大模型需求。

相关项目主页：GitHub 论文链接：ArXiv

原文链接

本文链接：https://kx.umi6.com/article/5050.html

转载请注明文章出处

大模型指令调优数据集