1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁

用扩散模型替代自回归,大模型的逆诅咒有解了! 人大高瓴人工智能研究院、蚂蚁共同提出LLaDA(a Large Language Diffusion with mAsking)。LLaDA-8B在上下文学习方面与LLaMA3-8B能力相当,且在反转诗歌任务中超越GPT-4o。

反转诗歌任务用于评估模型处理双向依赖关系和逻辑推理能力。自回归模型预测下一个token时表现不佳,而LLaDA基于扩散模型,能更好捕捉文本双向依赖关系。研究显示,LLaDA挑战了LLMs关键能力与自回归模型间的固有联系。

LLaDA仅用13万H800GPU时训练2.3万亿token语料,并对450万对token进行SFT。研究提出自回归是否是实现LLMs智能的唯一路径。LLaDA通过正向掩码和反向预测机制,增强模型双向依赖关系捕捉能力。

在语言理解、数学、代码和中文等任务中,LLaDA表现强劲。上下文学习方面,LLaDA-8B在15个标准任务上超越LLaMA2-7B,并与LLaMA3-8B相当。指令遵循能力和反转推理能力均有所提升,尤其在反转诗歌任务中,LLaDA表现优于GPT-4o。

LLaDA使用Transformer架构,不使用因果掩码,能同时看到输入序列的所有token。正向掩码过程采用随机掩码机制,模型目标是预测被掩码的token。SFT阶段优化模型,使其在特定任务上表现更好。

在生成任务中,LLaDA通过反向采样过程生成文本,平衡生成效率和质量。在条件概率评估任务中,LLaDA评估模型条件概率。实际应用中,LLaDA解决了数学推理和编程问题,获得国内外关注。

本研究由人大高瓴人工智能学院与蚂蚁集团共同完成,通讯作者为李崇轩。

原文链接
本文链接:https://kx.umi6.com/article/13645.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
从归因图到AI 的“生物学”:探索Claude3.5 Haiku 的内部机制“中”
2025-06-01 15:22:01
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
2024-11-20 13:09:34
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
2024-10-23 14:39:38
大语言模型火爆的今天,我们为什么还要拥抱世界模型?
2025-04-09 10:42:08
鸿海首个大语言模型 FoxBrain 发布:具备推理能力,未来计划部分开源
2025-03-10 16:45:45
王兴:美团将继续加大投资开发大语言模型,确保在中国拥有最佳团队
2025-05-26 21:51:58
过去一年,哪些AI模式跑出来了?
2024-08-07 19:19:32
扩散语言模型写代码!速度比自回归快10倍
2025-07-10 17:26:44
李飞飞一年前究竟说了啥?怎么又火了
2025-09-11 14:55:23
海洋领域首个业务化垂直领域大语言模型“瀚海智语”发布:基于 360 智脑和 DeepSeek 开发
2025-03-24 16:09:30
24小时热文
更多
扫一扫体验小程序