1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减
标题:陈丹琦团队降本大法再升级:数据减少三成,性能依旧出色 陈丹琦团队发布新方法,通过引入元数据,在减少33%训练数据的情况下,保持大模型性能不变。该方法名为“元数据调节然后冷却”(MeCo),分为预训练和冷却两阶段。 预训练阶段(90%),将元数据与文档拼接训练,仅计算文档标记的交叉熵损失。冷却阶段(10%)则使用标准数据训练,禁用跨文档注意力,提高性能。实验显示,MeCo使1.6B模型在少用33%数据情况下,达到与标准预训练相同性能。 MeCo有三大贡献:大幅加快预训练,开启新引导方法,兼容多种元数据。一作高天宇本科毕业于清华,现为普林斯顿大学博士生,研究领域包括大语言模型。
蝶舞CyberSwirl
01-07 22:14:42
MeCo
大模型
陈丹琦团队
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序