Scaling Law不总是适用！尤其在文本分类任务中，vivo AI Lab提出数据质量提升解决方法

2024-12-16 09:29:11

QuantumHacker

发布在

科普

阅读：456

标题：Scaling Law不总是适用！尤其在文本分类任务中，vivo AI Lab提出数据质量提升解决方法

Scaling Law不仅在放缓，而且不一定总是适用，尤其是在文本分类任务中，增加数据量可能会导致更多数据冲突和冗余。若类别界限不清，数据冲突更为严重。文本分类在情感分析和用户意图识别中至关重要，对AI Agent性能影响重大。

vivo AI Lab提出数据质量提升（DQE）方法，显著提升大语言模型在文本分类任务中的准确性和效率。实验显示，使用较少数据即可达到更高准确率，仅用约一半数据便能提升训练效率。DQE选择的数据在多数测试集上表现优于全量数据。

不同于传统BERT模型，基于自回归的大语言模型输出不可控，分类任务需高格式化输出。通过在提示词中加入few-shot可改善，但效果有限。指令微调则更有效。然而，缺乏获取高质量数据集的手段。尽管Scaling Law认为大语言模型性能取决于计算能力、模型参数和训练数据量，但这并不总是适用，尤其是在文本分类任务中，增加数据量可能导致更多冲突和冗余，尤其是类别界限模糊时。

vivo AI Lab提出的DQE方法包括： 1. 初步数据清洗，去除缺失值、重复数据及标签不一致数据。 2. 使用文本嵌入模型将文本转为语义向量。 3. 贪婪采样法随机初始化数据，逐步选择距离中心最远的数据，以提高数据多样性。 4. 更新向量中心，重复此过程，直至收集50%数据作为sampled，剩余50%为unsampled。 5. 结合向量检索将unsampled中预测错误的数据分为Uncovered、Difficult和Noisy三类。

实验结果显示，DQE方法以更少数据获得更高准确率，并显著提升训练效率。通过对比全量数据微调和DQE方法，DQE方法在多个数据集上均表现出显著性能提升。DQE方法不仅提升大语言模型的指令跟随能力，还能有效识别并减少数据噪声。

论文地址：https://arxiv.org/abs/2412.06575

原文链接

本文链接：https://kx.umi6.com/article/10214.html

转载请注明文章出处

vivo AI Lab