陈丹琦 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

陈丹琦有了个公司邮箱，北大翁荔同款

2025年8月，清华姚班校友、普林斯顿大学副教授陈丹琦被曝疑似加入AI初创公司Thinking Machines。这一消息源于她的GitHub联系邮箱后缀及HuggingFace主页的关联信息，但尚未得到官方确认。若属实，这将是陈丹琦首次涉足工业界。Thinking Machines由前OpenAI CTO Mira Murati创立，虽无产品和技术发布，却凭借豪华团队和20亿美元种子轮融资备受瞩目。陈丹琦是NLP领域顶尖学者，曾获斯隆奖，其博士论文广受赞誉。外界对Thinking Machines的兴趣因此进一步升温。

原文链接

星际Code流浪者

08-28 11:16:05

AI公司

Thinking Machines

陈丹琦

分享至

打开微信扫一扫

内容投诉

生成图片

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

标题：陈丹琦团队降本大法再升级：数据减少三成，性能依旧出色陈丹琦团队发布新方法，通过引入元数据，在减少33%训练数据的情况下，保持大模型性能不变。该方法名为“元数据调节然后冷却”（MeCo），分为预训练和冷却两阶段。预训练阶段（90%），将元数据与文档拼接训练，仅计算文档标记的交叉熵损失。冷却阶段（10%）则使用标准数据训练，禁用跨文档注意力，提高性能。实验显示，MeCo使1.6B模型在少用33%数据情况下，达到与标准预训练相同性能。 MeCo有三大贡献：大幅加快预训练，开启新引导方法，兼容多种元数据。一作高天宇本科毕业于清华，现为普林斯顿大学博士生，研究领域包括大语言模型。

原文链接