1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法

Scaling Law不仅在放缓,而且不一定总是适用,尤其是在文本分类任务中,增加数据量可能会导致更多数据冲突和冗余。若类别界限不清,数据冲突更为严重。文本分类在情感分析和用户意图识别中至关重要,对AI Agent性能影响重大。

vivo AI Lab提出数据质量提升(DQE)方法,显著提升大语言模型在文本分类任务中的准确性和效率。实验显示,使用较少数据即可达到更高准确率,仅用约一半数据便能提升训练效率。DQE选择的数据在多数测试集上表现优于全量数据。

不同于传统BERT模型,基于自回归的大语言模型输出不可控,分类任务需高格式化输出。通过在提示词中加入few-shot可改善,但效果有限。指令微调则更有效。然而,缺乏获取高质量数据集的手段。尽管Scaling Law认为大语言模型性能取决于计算能力、模型参数和训练数据量,但这并不总是适用,尤其是在文本分类任务中,增加数据量可能导致更多冲突和冗余,尤其是类别界限模糊时。

vivo AI Lab提出的DQE方法包括: 1. 初步数据清洗,去除缺失值、重复数据及标签不一致数据。 2. 使用文本嵌入模型将文本转为语义向量。 3. 贪婪采样法随机初始化数据,逐步选择距离中心最远的数据,以提高数据多样性。 4. 更新向量中心,重复此过程,直至收集50%数据作为sampled,剩余50%为unsampled。 5. 结合向量检索将unsampled中预测错误的数据分为Uncovered、Difficult和Noisy三类。

实验结果显示,DQE方法以更少数据获得更高准确率,并显著提升训练效率。通过对比全量数据微调和DQE方法,DQE方法在多个数据集上均表现出显著性能提升。DQE方法不仅提升大语言模型的指令跟随能力,还能有效识别并减少数据噪声。

论文地址:https://arxiv.org/abs/2412.06575

原文链接
本文链接:https://kx.umi6.com/article/10214.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法
2024-12-16 09:29:11
无垠拓界 基筑未来|无问智科重磅发布业界首个物理AI数据基座平台
2026-03-06 15:07:52
火山引擎上线ArkClaw:开箱即用的云上SaaS版OpenClaw
2026-03-09 15:55:48
arXiv创始人亲测:水论文这一块,Grok最强,Claude最不配合
2026-03-09 13:40:43
全网刷屏的“龙虾” 真的劝你不要盲目跟风!
2026-03-09 15:51:25
华泰证券:美以伊冲突下油价高涨或将推升电价
2026-03-10 09:02:22
佛州男子过度迷恋“AI娇妻”自杀身亡 家属起诉谷歌Gemini
2026-03-07 13:35:28
全国人大代表杭迎伟:打造水务全产业链机器人矩阵
2026-03-06 19:29:11
千问AI眼镜全渠道暂时售罄 9日10点再次开售
2026-03-09 07:16:29
MiniMax发布“龙虾”新技能:推出Voice Maker语音模型和Music Maker音乐模型
2026-03-09 16:56:53
AI短剧《霍去病》走红!导演澄清制作细节:3000元仅算力成本
2026-03-08 17:25:18
劝视频博主别拿龙虾起号 7×24小时全自动 碳基生物真卷不过
2026-03-07 00:47:12
AI将胜任80%岗位!亿万富翁:如今5岁儿童成年后将无需再为生存而工作
2026-03-06 15:12:02
24小时热文
更多
扫一扫体验小程序