标题:陈丹琦团队降本大法再升级:数据减少三成,性能依旧出色
陈丹琦团队发布新方法,通过引入元数据,在减少33%训练数据的情况下,保持大模型性能不变。该方法名为“元数据调节然后冷却”(MeCo),分为预训练和冷却两阶段。
预训练阶段(90%),将元数据与文档拼接训练,仅计算文档标记的交叉熵损失。冷却阶段(10%)则使用标准数据训练,禁用跨文档注意力,提高性能。实验显示,MeCo使1.6B模型在少用33%数据情况下,达到与标准预训练相同性能。
MeCo有三大贡献:大幅加快预训练,开启新引导方法,兼容多种元数据。一作高天宇本科毕业于清华,现为普林斯顿大学博士生,研究领域包括大语言模型。
原文链接
本文链接:https://kx.umi6.com/article/11314.html
转载请注明文章出处
相关推荐
换一换
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
大模型产生幻觉,全怪人类PUA吗?
2025-09-10 15:36:03
火线解析智谱AI招股书:年营收3亿增速130%,率先冲刺全球大模型第一股
2025-12-19 23:14:23
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
亚马逊云科技发布多款大模型
2025-12-03 14:25:54
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
智谱中标679.8万元水电大模型项目
2025-11-05 20:23:03
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
卓世科技,股改完成!
2026-01-05 15:08:15
关于 AI Infra 的一切
2025-08-11 19:08:22
李开复任命三位新高管:零一万物的“一把手工程”与大模型中场战事
2025-10-27 13:00:52
上海:推动医疗器械相关垂类大模型研发应用
2025-09-15 16:02:14
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
644 文章
449497 浏览
24小时热文
更多
-
2026-02-07 19:20:59 -
2026-02-07 19:19:57 -
2026-02-07 19:18:40