嚯！大语言扩散模型来了，何必只预测下一个token

2025-02-18 13:14:03

嚯！大语言扩散模型来了，何必只预测下一个token | 人大高瓴&蚂蚁

像素宇宙

发布在

科普

阅读：496

嚯！大语言扩散模型来了，何必只预测下一个token | 人大高瓴&蚂蚁

用扩散模型替代自回归，大模型的逆诅咒有解了! 人大高瓴人工智能研究院、蚂蚁共同提出LLaDA（a Large Language Diffusion with mAsking）。LLaDA-8B在上下文学习方面与LLaMA3-8B能力相当，且在反转诗歌任务中超越GPT-4o。

反转诗歌任务用于评估模型处理双向依赖关系和逻辑推理能力。自回归模型预测下一个token时表现不佳，而LLaDA基于扩散模型，能更好捕捉文本双向依赖关系。研究显示，LLaDA挑战了LLMs关键能力与自回归模型间的固有联系。

LLaDA仅用13万H800GPU时训练2.3万亿token语料，并对450万对token进行SFT。研究提出自回归是否是实现LLMs智能的唯一路径。LLaDA通过正向掩码和反向预测机制，增强模型双向依赖关系捕捉能力。

在语言理解、数学、代码和中文等任务中，LLaDA表现强劲。上下文学习方面，LLaDA-8B在15个标准任务上超越LLaMA2-7B，并与LLaMA3-8B相当。指令遵循能力和反转推理能力均有所提升，尤其在反转诗歌任务中，LLaDA表现优于GPT-4o。

LLaDA使用Transformer架构，不使用因果掩码，能同时看到输入序列的所有token。正向掩码过程采用随机掩码机制，模型目标是预测被掩码的token。SFT阶段优化模型，使其在特定任务上表现更好。

在生成任务中，LLaDA通过反向采样过程生成文本，平衡生成效率和质量。在条件概率评估任务中，LLaDA评估模型条件概率。实际应用中，LLaDA解决了数学推理和编程问题，获得国内外关注。

本研究由人大高瓴人工智能学院与蚂蚁集团共同完成，通讯作者为李崇轩。

原文链接

本文链接：https://kx.umi6.com/article/13645.html

转载请注明文章出处

大语言模型

扩散模型

自回归模型

分享至

打开微信扫一扫

内容投诉

生成图片

像素宇宙

596 文章

332491 浏览

24小时热文