12月12日,蚂蚁技术研究院发布LLaDA2.0离散扩散大语言模型,称其为“业内首个100B扩散语言模型”。该系列包含16B和100B两个版本,在代码、数学及智能体任务中性能超越同级自回归(AR)模型。通过创新的Warmup-Stable-Decay持续预训练策略,LLaDA2.0继承现有AR模型知识,降低训练成本,同时结合置信度感知并行训练等技术,实现比AR模型快2.1倍的推理加速。评估显示,该模型在结构化生成任务(如代码)上表现突出,其他领域与开源AR模型持平。目前,模型权重及相关代码已在Huggingface平台开源。
原文链接
本文链接:https://kx.umi6.com/article/30117.html
转载请注明文章出处
相关推荐
换一换
Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……
2025-11-04 12:11:12
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
2025-12-16 09:28:45
月之暗面杨植麟、周昕宇、吴育昕罕见回应一切:打假 460 万美元、调侃 OpenAI
2025-11-12 09:56:27
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
2025-11-11 18:20:16
腾讯混元3D-Omni、混元3D-Part发布并开源
2025-09-26 18:33:53
阿里云创始人王坚:人工智能时代将带来“计算卫星”
2025-09-11 15:59:12
DeepMind 没舍得开源的 Genie 3,被昆仑万维放出来了
2025-08-12 14:22:32
美团发布开源 LongCat-Video 视频生成模型,可稳定输出 5 分钟级内容
2025-10-27 11:55:56
智谱GLM-4.7-Flash正式发布并开源
2026-01-20 08:45:53
智谱 GLM-4.7-Flash 模型发布并开源,可免费调用
2026-01-20 09:47:20
“会操作手机的 AI”,智谱开源 AI Agent 模型 AutoGLM
2025-12-09 10:29:51
上传一张图、主演任何视频,“性能最强动作生成模型”阿里通义万相 Wan2.2-Animate 开源
2025-09-19 15:14:57
业界首个,腾讯混元 3D 世界模型正式发布并开源
2025-07-27 11:55:13
684 文章
465882 浏览
24小时热文
更多
-
2026-02-26 18:25:28 -
2026-02-26 18:24:23 -
2026-02-26 17:23:08