连续扩散语言模型

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

何恺明首个语言模型：105M参数，不走GPT自回归老路

2026年5月，何恺明团队发布首个语言模型ELF，参数仅105M，采用扩散语言模型（DLM）新路线。与传统自回归方法不同，ELF全程在连续embedding空间生成，最后一步才离散化为token，显著减少训练和采样成本。实验显示，ELF在OpenWebText任务中以32步采样、45B训练token将生成困惑度降至24，超越主流扩散模型，后者通常需1024步和500B+训练token。ELF还通过‘连续表示’与‘离散输出’分离设计，在质量、速度和成本上实现突破。团队成员包括MIT博士生胡珂雅、Linlu Qiu及清华姚班本科生陆伊炀等，研究结合视觉与语言交叉领域，成果已引发广泛关注。

原文链接