MeCo - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

标题：陈丹琦团队降本大法再升级：数据减少三成，性能依旧出色陈丹琦团队发布新方法，通过引入元数据，在减少33%训练数据的情况下，保持大模型性能不变。该方法名为“元数据调节然后冷却”（MeCo），分为预训练和冷却两阶段。预训练阶段（90%），将元数据与文档拼接训练，仅计算文档标记的交叉熵损失。冷却阶段（10%）则使用标准数据训练，禁用跨文档注意力，提高性能。实验显示，MeCo使1.6B模型在少用33%数据情况下，达到与标准预训练相同性能。 MeCo有三大贡献：大幅加快预训练，开启新引导方法，兼容多种元数据。一作高天宇本科毕业于清华，现为普林斯顿大学博士生，研究领域包括大语言模型。

原文链接