
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年8月,清华姚班校友、普林斯顿大学副教授陈丹琦被曝疑似加入AI初创公司Thinking Machines。这一消息源于她的GitHub联系邮箱后缀及HuggingFace主页的关联信息,但尚未得到官方确认。若属实,这将是陈丹琦首次涉足工业界。Thinking Machines由前OpenAI CTO Mira Murati创立,虽无产品和技术发布,却凭借豪华团队和20亿美元种子轮融资备受瞩目。陈丹琦是NLP领域顶尖学者,曾获斯隆奖,其博士论文广受赞誉。外界对Thinking Machines的兴趣因此进一步升温。
原文链接
标题:陈丹琦团队降本大法再升级:数据减少三成,性能依旧出色
陈丹琦团队发布新方法,通过引入元数据,在减少33%训练数据的情况下,保持大模型性能不变。该方法名为“元数据调节然后冷却”(MeCo),分为预训练和冷却两阶段。
预训练阶段(90%),将元数据与文档拼接训练,仅计算文档标记的交叉熵损失。冷却阶段(10%)则使用标准数据训练,禁用跨文档注意力,提高性能。实验显示,MeCo使1.6B模型在少用33%数据情况下,达到与标准预训练相同性能。
MeCo有三大贡献:大幅加快预训练,开启新引导方法,兼容多种元数据。一作高天宇本科毕业于清华,现为普林斯顿大学博士生,研究领域包括大语言模型。
原文链接
加载更多

暂无内容