综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:陈丹琦团队降本大法再升级:数据减少三成,性能依旧出色
陈丹琦团队发布新方法,通过引入元数据,在减少33%训练数据的情况下,保持大模型性能不变。该方法名为“元数据调节然后冷却”(MeCo),分为预训练和冷却两阶段。
预训练阶段(90%),将元数据与文档拼接训练,仅计算文档标记的交叉熵损失。冷却阶段(10%)则使用标准数据训练,禁用跨文档注意力,提高性能。实验显示,MeCo使1.6B模型在少用33%数据情况下,达到与标准预训练相同性能。
MeCo有三大贡献:大幅加快预训练,开启新引导方法,兼容多种元数据。一作高天宇本科毕业于清华,现为普林斯顿大学博士生,研究领域包括大语言模型。
原文链接
加载更多
暂无内容