1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法

Scaling Law不仅在放缓,而且不一定总是适用,尤其是在文本分类任务中,增加数据量可能会导致更多数据冲突和冗余。若类别界限不清,数据冲突更为严重。文本分类在情感分析和用户意图识别中至关重要,对AI Agent性能影响重大。

vivo AI Lab提出数据质量提升(DQE)方法,显著提升大语言模型在文本分类任务中的准确性和效率。实验显示,使用较少数据即可达到更高准确率,仅用约一半数据便能提升训练效率。DQE选择的数据在多数测试集上表现优于全量数据。

不同于传统BERT模型,基于自回归的大语言模型输出不可控,分类任务需高格式化输出。通过在提示词中加入few-shot可改善,但效果有限。指令微调则更有效。然而,缺乏获取高质量数据集的手段。尽管Scaling Law认为大语言模型性能取决于计算能力、模型参数和训练数据量,但这并不总是适用,尤其是在文本分类任务中,增加数据量可能导致更多冲突和冗余,尤其是类别界限模糊时。

vivo AI Lab提出的DQE方法包括: 1. 初步数据清洗,去除缺失值、重复数据及标签不一致数据。 2. 使用文本嵌入模型将文本转为语义向量。 3. 贪婪采样法随机初始化数据,逐步选择距离中心最远的数据,以提高数据多样性。 4. 更新向量中心,重复此过程,直至收集50%数据作为sampled,剩余50%为unsampled。 5. 结合向量检索将unsampled中预测错误的数据分为Uncovered、Difficult和Noisy三类。

实验结果显示,DQE方法以更少数据获得更高准确率,并显著提升训练效率。通过对比全量数据微调和DQE方法,DQE方法在多个数据集上均表现出显著性能提升。DQE方法不仅提升大语言模型的指令跟随能力,还能有效识别并减少数据噪声。

论文地址:https://arxiv.org/abs/2412.06575

原文链接
本文链接:https://kx.umi6.com/article/10214.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Scaling Law不总是适用!尤其在文本分类任务中,vivo AI Lab提出数据质量提升解决方法
2024-12-16 09:29:11
Meta削减人工智能部门约600个职位,精简架构以加速组织转型
2025-10-23 02:55:30
重磅应用密集上线,同时“硬刚”谷歌、亚马逊和Meta,OpenAI急了?今年要“烧”85亿美元
2025-10-22 21:52:10
一文讲透Agent的底层逻辑
2025-10-22 22:53:19
上海新增2款已完成备案的生成式人工智能服务
2025-10-23 19:13:44
荣耀设立20亿激励资源 提升智能体和MagicOS生态体验力度
2025-10-23 18:14:34
1.3亿美元!LiblibAI拿下国内AI应用赛道年度最大融资
2025-10-23 15:06:43
LiblibAI完成1.3亿美元B轮融资 为中国AI应用今年最大融资
2025-10-22 22:54:13
马斯克详谈AI5芯片:由三星和台积电一起生产,不会弃用英伟达GPU!
2025-10-23 10:06:47
深圳:在集成电路、人工智能、新能源、生物医药等战略性新兴产业领域 支持“链主”企业、龙头上市公司等开展上下游并购重组
2025-10-22 17:52:12
荣耀与比亚迪达成战略合作,共同打造AI驱动的智慧出行新生态
2025-10-22 17:49:08
顶会直聘!大厂ICCV现场玩出新模式,还是鹅会玩
2025-10-23 16:08:51
存储芯片“超级周期”持续演绎:三星、SK海力士料将涨价30% 客户开启囤货模式
2025-10-23 15:11:46
24小时热文
更多
扫一扫体验小程序