1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法

Scaling Law不仅在放缓,而且不一定总是适用,尤其是在文本分类任务中,增加数据量可能会导致更多数据冲突和冗余。若类别界限不清,数据冲突更为严重。文本分类在情感分析和用户意图识别中至关重要,对AI Agent性能影响重大。

vivo AI Lab提出数据质量提升(DQE)方法,显著提升大语言模型在文本分类任务中的准确性和效率。实验显示,使用较少数据即可达到更高准确率,仅用约一半数据便能提升训练效率。DQE选择的数据在多数测试集上表现优于全量数据。

不同于传统BERT模型,基于自回归的大语言模型输出不可控,分类任务需高格式化输出。通过在提示词中加入few-shot可改善,但效果有限。指令微调则更有效。然而,缺乏获取高质量数据集的手段。尽管Scaling Law认为大语言模型性能取决于计算能力、模型参数和训练数据量,但这并不总是适用,尤其是在文本分类任务中,增加数据量可能导致更多冲突和冗余,尤其是类别界限模糊时。

vivo AI Lab提出的DQE方法包括: 1. 初步数据清洗,去除缺失值、重复数据及标签不一致数据。 2. 使用文本嵌入模型将文本转为语义向量。 3. 贪婪采样法随机初始化数据,逐步选择距离中心最远的数据,以提高数据多样性。 4. 更新向量中心,重复此过程,直至收集50%数据作为sampled,剩余50%为unsampled。 5. 结合向量检索将unsampled中预测错误的数据分为Uncovered、Difficult和Noisy三类。

实验结果显示,DQE方法以更少数据获得更高准确率,并显著提升训练效率。通过对比全量数据微调和DQE方法,DQE方法在多个数据集上均表现出显著性能提升。DQE方法不仅提升大语言模型的指令跟随能力,还能有效识别并减少数据噪声。

论文地址:https://arxiv.org/abs/2412.06575

原文链接
本文链接:https://kx.umi6.com/article/10214.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法
2024-12-16 09:29:11
粤芯半导体年产48万片晶圆生产线启动 总投资252亿元
2026-01-22 22:15:16
贝莱德CEO称人工智能领域不存在泡沫
2026-01-22 23:18:34
2026年OpenAI最看好的3个方向
2026-01-21 17:20:17
马斯克:人工智能部署的限制因素是电力供应
2026-01-23 00:20:44
微软CEO:AI时代的核心不是“单一模型” 而是“模型编排与算力工厂”
2026-01-21 17:23:41
头号重仓股易主 公募持续掘金AI主线
2026-01-23 06:34:26
知名游戏女主播怒斥AI修图 花大手笔清除不雅照
2026-01-22 08:43:34
快手可灵AI月活突破1200万
2026-01-21 15:18:50
2026开年最该来的AI神仙局,就在崇礼太舞小镇
2026-01-21 15:13:07
OpenAI:将自行承担“星际之门”项目能源费用
2026-01-21 12:08:12
中信证券:建议当前核心围绕先进封装和存储封装环节进行布局
2026-01-23 08:40:41
突发!xAI联创杨格过劳病离职,给马斯克干活压力山大
2026-01-21 17:21:29
24小时热文
更多
扫一扫体验小程序