标题:陈丹琦团队降本大法再升级:数据减少三成,性能依旧出色
陈丹琦团队发布新方法,通过引入元数据,在减少33%训练数据的情况下,保持大模型性能不变。该方法名为“元数据调节然后冷却”(MeCo),分为预训练和冷却两阶段。
预训练阶段(90%),将元数据与文档拼接训练,仅计算文档标记的交叉熵损失。冷却阶段(10%)则使用标准数据训练,禁用跨文档注意力,提高性能。实验显示,MeCo使1.6B模型在少用33%数据情况下,达到与标准预训练相同性能。
MeCo有三大贡献:大幅加快预训练,开启新引导方法,兼容多种元数据。一作高天宇本科毕业于清华,现为普林斯顿大学博士生,研究领域包括大语言模型。
原文链接
本文链接:https://kx.umi6.com/article/11314.html
转载请注明文章出处
相关推荐
换一换
马斯克Grok-4碾压所有大模型!“比所有博士聪明”,AIME25拿满分
2025-07-10 16:23:20
IDC评测9家座舱大模型产品 斑马获最多项满分推荐
2025-07-18 11:36:59
数字人,正在逼近盈利线
2025-07-17 12:20:37
训练大模型烧了那么多钱,商业价值到底在哪?
2025-07-04 09:39:31
大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案
2025-07-20 16:05:44
上海市经信委:重点围绕大模型、语料数据和人形机器人 培育开源生态体系
2025-07-04 17:47:59
在上海WAIC,800展商无一不想成为黄仁勋
2025-07-27 07:50:27
GPT-5能让普通人变成博士,但魔法依旧没有
2025-08-08 12:10:14
如何避免成为AI墓地的一员?
2025-07-23 13:50:51
关于 AI Infra 的一切
2025-08-11 19:08:22
一场对抗OpenAI们的“危险游戏”,值不值得投资
2025-07-23 08:46:29
阿里云副总裁叶杰平:大模型已呈现“周级迭代”爆发态势
2025-07-27 13:59:57
大厂「AI」智能体,等待 DeepSeek 时刻
2025-07-31 11:05:08
525 文章
263999 浏览
24小时热文
更多
-
2025-10-25 10:17:38 -
2025-10-25 08:14:19 -
2025-10-24 22:57:14