嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
用扩散模型替代自回归,大模型的逆诅咒有解了! 人大高瓴人工智能研究院、蚂蚁共同提出LLaDA(a Large Language Diffusion with mAsking)。LLaDA-8B在上下文学习方面与LLaMA3-8B能力相当,且在反转诗歌任务中超越GPT-4o。
反转诗歌任务用于评估模型处理双向依赖关系和逻辑推理能力。自回归模型预测下一个token时表现不佳,而LLaDA基于扩散模型,能更好捕捉文本双向依赖关系。研究显示,LLaDA挑战了LLMs关键能力与自回归模型间的固有联系。
LLaDA仅用13万H800GPU时训练2.3万亿token语料,并对450万对token进行SFT。研究提出自回归是否是实现LLMs智能的唯一路径。LLaDA通过正向掩码和反向预测机制,增强模型双向依赖关系捕捉能力。
在语言理解、数学、代码和中文等任务中,LLaDA表现强劲。上下文学习方面,LLaDA-8B在15个标准任务上超越LLaMA2-7B,并与LLaMA3-8B相当。指令遵循能力和反转推理能力均有所提升,尤其在反转诗歌任务中,LLaDA表现优于GPT-4o。
LLaDA使用Transformer架构,不使用因果掩码,能同时看到输入序列的所有token。正向掩码过程采用随机掩码机制,模型目标是预测被掩码的token。SFT阶段优化模型,使其在特定任务上表现更好。
在生成任务中,LLaDA通过反向采样过程生成文本,平衡生成效率和质量。在条件概率评估任务中,LLaDA评估模型条件概率。实际应用中,LLaDA解决了数学推理和编程问题,获得国内外关注。
本研究由人大高瓴人工智能学院与蚂蚁集团共同完成,通讯作者为李崇轩。
原文链接
本文链接:https://kx.umi6.com/article/13645.html
转载请注明文章出处
相关推荐
.png)
换一换
顶级AI认知能力输给老年人,大模型集体翻车
2025-01-13 09:55:05
对话宇树科技创始人王兴兴:人形机器人大模型,还没走到“大力出奇迹”阶段
2024-08-22 09:27:42
Meta Token-Shuffle 登场:自回归模型突破瓶颈,可 AI 生成 2048×2048 分辨率图像
2025-04-26 14:49:30
444 文章
62225 浏览
24小时热文
更多

-
2025-07-20 13:03:48
-
2025-07-20 12:02:31
-
2025-07-20 10:03:13