陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

2025-01-07 22:14:42

蝶舞CyberSwirl

发布在

科普

阅读：325

标题：陈丹琦团队降本大法再升级：数据减少三成，性能依旧出色

陈丹琦团队发布新方法，通过引入元数据，在减少33%训练数据的情况下，保持大模型性能不变。该方法名为“元数据调节然后冷却”（MeCo），分为预训练和冷却两阶段。

预训练阶段（90%），将元数据与文档拼接训练，仅计算文档标记的交叉熵损失。冷却阶段（10%）则使用标准数据训练，禁用跨文档注意力，提高性能。实验显示，MeCo使1.6B模型在少用33%数据情况下，达到与标准预训练相同性能。

MeCo有三大贡献：大幅加快预训练，开启新引导方法，兼容多种元数据。一作高天宇本科毕业于清华，现为普林斯顿大学博士生，研究领域包括大语言模型。

原文链接

本文链接：https://kx.umi6.com/article/11314.html

转载请注明文章出处

MeCo

大模型

陈丹琦团队

分享至

打开微信扫一扫

内容投诉

生成图片

644 文章

449497 浏览

24小时热文