2025年9月,蚂蚁集团在上海外滩大会发布基于扩散理论的新范式模型LLaDA-MoE,总参数量7B,激活参数1.4B,验证了工业级大规模训练的可行性。该模型由蓝振忠和李崇轩团队联合开发,克服了自回归模型的单向建模缺陷,具备并行解码、双向建模及错误修正能力。蚂蚁通过开源基础模型版和指令微调版,推动扩散语言模型(dLLM)领域的社区协作,并计划联合学界探索AGI新突破。这一成果为语言模型研究开辟新路径,标志着国内团队在dLLM规模化扩展上迈出重要一步。
原文链接
本文链接:https://kx.umi6.com/article/26048.html
转载请注明文章出处
相关推荐
.png)
换一换
面壁CEO李大海:物理世界要实现AGI,一定是通过端侧智能
2025-05-09 13:48:51
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
2025-07-11 17:42:54
微软 CEO 纳德拉:我更关注 AI 为现实世界带来的实际影响,而非单纯追求 AGI
2025-05-29 19:39:50
DeepSeek 反思潮:AGI 既被重新审视,又被持续低估
2025-03-01 00:34:32
何恺明新作:给扩散模型加正则化,无需预训练无需数据增强,超简单实现性能提升
2025-06-12 17:40:43
扩散语言模型写代码!速度比自回归快10倍
2025-07-10 17:26:44
马斯克:Grok 5 模型几周后开始训练,有机会实现 AGI
2025-09-17 15:32:12
独家对话刘知远:AGI 是一场技术理想与商业现实的「持久战」
2025-03-04 17:26:02
小扎「超级智能」小组来了一位大佬
2025-06-12 13:33:28
市场传言:GPT-5最早或于8月初发布
2025-07-25 02:15:22
奥特曼:假如给我一千倍算力,我会这样做
2025-06-04 17:26:39
微软与OpenAI矛盾的根源:AGI
2025-06-26 17:01:05
李飞飞最新访谈:没有空间智能,AGI就不完整
2025-07-03 15:26:49
502 文章
215271 浏览
24小时热文
更多

-
2025-09-29 12:09:12
-
2025-09-29 12:09:01
-
2025-09-29 12:08:03