标题:Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法
Scaling Law不仅在放缓,而且不一定总是适用,尤其是在文本分类任务中,增加数据量可能会导致更多数据冲突和冗余。若类别界限不清,数据冲突更为严重。文本分类在情感分析和用户意图识别中至关重要,对AI Agent性能影响重大。
vivo AI Lab提出数据质量提升(DQE)方法,显著提升大语言模型在文本分类任务中的准确性和效率。实验显示,使用较少数据即可达到更高准确率,仅用约一半数据便能提升训练效率。DQE选择的数据在多数测试集上表现优于全量数据。
不同于传统BERT模型,基于自回归的大语言模型输出不可控,分类任务需高格式化输出。通过在提示词中加入few-shot可改善,但效果有限。指令微调则更有效。然而,缺乏获取高质量数据集的手段。尽管Scaling Law认为大语言模型性能取决于计算能力、模型参数和训练数据量,但这并不总是适用,尤其是在文本分类任务中,增加数据量可能导致更多冲突和冗余,尤其是类别界限模糊时。
vivo AI Lab提出的DQE方法包括: 1. 初步数据清洗,去除缺失值、重复数据及标签不一致数据。 2. 使用文本嵌入模型将文本转为语义向量。 3. 贪婪采样法随机初始化数据,逐步选择距离中心最远的数据,以提高数据多样性。 4. 更新向量中心,重复此过程,直至收集50%数据作为sampled,剩余50%为unsampled。 5. 结合向量检索将unsampled中预测错误的数据分为Uncovered、Difficult和Noisy三类。
实验结果显示,DQE方法以更少数据获得更高准确率,并显著提升训练效率。通过对比全量数据微调和DQE方法,DQE方法在多个数据集上均表现出显著性能提升。DQE方法不仅提升大语言模型的指令跟随能力,还能有效识别并减少数据噪声。
论文地址:https://arxiv.org/abs/2412.06575
.png)

-
2025-07-19 17:56:25
-
2025-07-19 17:55:01
-
2025-07-19 16:54:40