12月12日,蚂蚁技术研究院发布LLaDA2.0离散扩散大语言模型,称其为“业内首个100B扩散语言模型”。该系列包含16B和100B两个版本,在代码、数学及智能体任务中性能超越同级自回归(AR)模型。通过创新的Warmup-Stable-Decay持续预训练策略,LLaDA2.0继承现有AR模型知识,降低训练成本,同时结合置信度感知并行训练等技术,实现比AR模型快2.1倍的推理加速。评估显示,该模型在结构化生成任务(如代码)上表现突出,其他领域与开源AR模型持平。目前,模型权重及相关代码已在Huggingface平台开源。
原文链接
本文链接:https://kx.umi6.com/article/30117.html
转载请注明文章出处
相关推荐
换一换
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了
2025-08-12 14:22:32
“会操作手机的 AI”,智谱开源 AI Agent 模型 AutoGLM
2025-12-09 10:29:51
阿里新一代模型Qwen3.5曝光
2026-02-09 13:10:49
蚂蚁发布并开源万亿参数思考模型Ring-1T
2025-10-14 17:25:02
马斯克宣布Grok-2正式开源 Grok-3也将在大概6个月内开源
2025-08-24 18:18:35
智谱开源GLM-4.7-Flash模型
2026-01-20 16:17:32
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
2025-11-11 18:20:16
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
腾讯混元开源翻译模型 1.5:手机 1GB 内存即可运行,效果超越商用 API
2025-12-30 16:27:33
兑现承诺!马斯克旗下xAI宣布Grok 2.5正式开源
2025-08-25 16:33:11
腾讯混元3D-Omni、混元3D-Part发布并开源
2025-09-26 18:33:53
721 文章
562885 浏览
24小时热文
更多
-
2026-04-24 18:29:17 -
2026-04-24 18:28:12 -
2026-04-24 18:27:05