1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法

Scaling Law不仅在放缓,而且不一定总是适用,尤其是在文本分类任务中,增加数据量可能会导致更多数据冲突和冗余。若类别界限不清,数据冲突更为严重。文本分类在情感分析和用户意图识别中至关重要,对AI Agent性能影响重大。

vivo AI Lab提出数据质量提升(DQE)方法,显著提升大语言模型在文本分类任务中的准确性和效率。实验显示,使用较少数据即可达到更高准确率,仅用约一半数据便能提升训练效率。DQE选择的数据在多数测试集上表现优于全量数据。

不同于传统BERT模型,基于自回归的大语言模型输出不可控,分类任务需高格式化输出。通过在提示词中加入few-shot可改善,但效果有限。指令微调则更有效。然而,缺乏获取高质量数据集的手段。尽管Scaling Law认为大语言模型性能取决于计算能力、模型参数和训练数据量,但这并不总是适用,尤其是在文本分类任务中,增加数据量可能导致更多冲突和冗余,尤其是类别界限模糊时。

vivo AI Lab提出的DQE方法包括: 1. 初步数据清洗,去除缺失值、重复数据及标签不一致数据。 2. 使用文本嵌入模型将文本转为语义向量。 3. 贪婪采样法随机初始化数据,逐步选择距离中心最远的数据,以提高数据多样性。 4. 更新向量中心,重复此过程,直至收集50%数据作为sampled,剩余50%为unsampled。 5. 结合向量检索将unsampled中预测错误的数据分为Uncovered、Difficult和Noisy三类。

实验结果显示,DQE方法以更少数据获得更高准确率,并显著提升训练效率。通过对比全量数据微调和DQE方法,DQE方法在多个数据集上均表现出显著性能提升。DQE方法不仅提升大语言模型的指令跟随能力,还能有效识别并减少数据噪声。

论文地址:https://arxiv.org/abs/2412.06575

原文链接
本文链接:https://kx.umi6.com/article/10214.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法
2024-12-16 09:29:11
中国电信董事长柯瑞文:加快推进算力基础设施建设 强化国产算力芯片适配
2025-12-07 21:52:07
AI芯片明年6倍增长 百度回应昆仑芯上市计划:不保证会进行
2025-12-07 21:51:01
众擎完成 A1+ 轮与 A2 轮融资,机器人 T800 全面启动规模化发售
2025-12-08 16:37:00
马斯克谈每年发射100万吨AI卫星:大规模运行AI最低成本方式
2025-12-08 10:20:50
广西“十五五”规划建议:高标准建设中国—东盟国家人工智能应用合作中心
2025-12-07 10:23:39
Gartner 调查:仅 20% 客服支持主管表示因 AI 削减团队规模
2025-12-08 14:31:10
英国拟全面推广 AI 人脸识别系统,但黑人、亚裔“极易”被误报为涉案人员
2025-12-06 16:38:53
豆包手机助手:已下线操作银行、互联网支付类APP的能力
2025-12-06 18:44:32
OpenAI:科技、医疗和制造业是人工智能增长最快的行业
2025-12-08 20:47:34
美的“美罗 U”首曝,行业首创六臂轮足式人形机器人
2025-12-07 15:33:32
快手可灵 O1 主体库上线:只要有多角度参考图就能让 AI“记住”主角
2025-12-06 21:53:19
联想入股原力聚合机器人科技公司
2025-12-08 11:27:54
24小时热文
更多
扫一扫体验小程序