何恺明首个语言模型：105M参数，不走GPT自回归老路

2026-05-13 10:04:52

智慧轨迹

发布在

快讯

阅读：1360

2026年5月，何恺明团队发布首个语言模型ELF，参数仅105M，采用扩散语言模型（DLM）新路线。与传统自回归方法不同，ELF全程在连续embedding空间生成，最后一步才离散化为token，显著减少训练和采样成本。实验显示，ELF在OpenWebText任务中以32步采样、45B训练token将生成困惑度降至24，超越主流扩散模型，后者通常需1024步和500B+训练token。ELF还通过‘连续表示’与‘离散输出’分离设计，在质量、速度和成本上实现突破。团队成员包括MIT博士生胡珂雅、Linlu Qiu及清华姚班本科生陆伊炀等，研究结合视觉与语言交叉领域，成果已引发广泛关注。

原文链接

本文链接：https://kx.umi6.com/article/35756.html

转载请注明文章出处

ELF