调整训练数据顺序,让大模型更聪明!无需扩大规模
模型训练的关键不仅在于数据的数量和质量,还在于数据的出场顺序。微软亚洲研究院提出了一种全新的文本数据组织范式——DELT(Data Efficacy in LM Training),通过优化数据排序策略,充分挖掘训练数据潜力,在不同模型尺寸和数据规模下均显著提升了性能,且无需增加数据量或扩大模型规模。
数据效率与效能的区别
现有研究多关注“数据效率”(Data Efficiency),即如何选择高质量数据以提升训练效率。然而,“数据效能”(Data Efficacy)——通过优化数据组织方式增强模型表现——却常被忽视。以烹饪为例,数据效率如同挑选优质食材,而数据效能则像名厨精准把握调料投放时机,让菜品风味更佳。
当前大语言模型通常在海量数据上进行单次完整训练(epoch=1),而非多次迭代。这使得数据呈现的顺序对结果影响巨大。就像学生只能通读一本书一次,阅读顺序必须精心规划。基于此,DELT范式通过数据评分、选择和排序三大核心组件,优化了训练数据的组织方式。
DELT的核心机制
- 数据评分:结合质量和可学习性两个指标,为每个样本打分,筛选出高质量且适合当前训练阶段的数据。
- 数据选择:根据评分筛选最优子集(如top-k或按阈值筛选)。
- 数据排序:引入全新Folding Ordering(FO)方法,避免传统课程学习排序可能导致的模型遗忘问题,通过分层采样实现均衡分布。
效果与意义
DELT不仅提升了训练效率,还在预训练和后训练阶段显著改善了模型性能,适用于通用、数学和代码等多领域任务。实验表明,在不同数据规模和模型尺寸下,DELT均表现出色,为Data-centric AI领域提供了新思路。
看来,AI训练也需要像人类学习一样讲究个性化与循序渐进。
论文链接:https://arxiv.org/abs/2506.21545
代码链接:https://github.com/microsoft/DELT
原文链接
本文链接:https://kx.umi6.com/article/24793.html
转载请注明文章出处
相关推荐
.png)
换一换
调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模
2025-09-06 12:36:04
马斯克旗下AI女友Ani夏装换新:高叉热裤到热辣比基尼
2025-09-04 23:08:57
智谱打响中场战事
2025-09-06 06:30:37
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
2025-09-05 13:18:29
博通公司股价盘初大涨15%市值增长2200亿美元 多家机构集体上调其目标价
2025-09-05 22:27:31
OpenAI重组ChatGPT个性研究团队!
2025-09-06 11:36:18
AIDC高速互联需求不止 OCS会是下一个答案吗?
2025-09-06 08:33:16
ChatGPT新功能,又干掉一批创业项目
2025-09-05 13:21:19
华纳兄弟探索起诉 Midjourney,指控其 AI 侵犯蝙蝠侠、超人、兔八哥等角色版权
2025-09-05 10:19:00
不寒而栗!AI克隆盗用别人声音 去卖不可描述保健品
2025-09-05 17:23:07
诈骗专家自己都差点被骗,新加坡反欺诈大会呼吁警惕二维码、AI 等新型骗术
2025-09-04 22:08:23
商汤大装置与华为昇腾 384 超节点全面适配,多项创新提升训练效率
2025-09-06 14:35:21
李飞飞的答案:大模型之后,Agent向何处去?
2025-09-05 09:13:59
482 文章
177884 浏览
24小时热文
更多

-
2025-09-06 15:35:56
-
2025-09-06 15:35:37
-
2025-09-06 14:35:37