1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

12月12日,蚂蚁技术研究院发布LLaDA2.0离散扩散大语言模型,称其为“业内首个100B扩散语言模型”。该系列包含16B和100B两个版本,在代码、数学及智能体任务中性能超越同级自回归(AR)模型。通过创新的Warmup-Stable-Decay持续预训练策略,LLaDA2.0继承现有AR模型知识,降低训练成本,同时结合置信度感知并行训练等技术,实现比AR模型快2.1倍的推理加速。评估显示,该模型在结构化生成任务(如代码)上表现突出,其他领域与开源AR模型持平。目前,模型权重及相关代码已在Huggingface平台开源。

原文链接
本文链接:https://kx.umi6.com/article/30117.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
力压Seedance 2.0! 神秘AI模型登全球AI评测榜第一名:正式宣布开源
2026-04-09 12:05:02
开源Agent模型榜第一名,现在是阿里通义DeepResearch
2025-09-18 15:54:31
用编程大模型登顶开源第一后,智谱GLM团队被拷问了3小时
2025-12-25 11:29:48
智谱开源GLM-OCR模型
2026-02-03 09:27:36
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
睿尔曼开源全球首个高质量、模态数量最多的真机数据集
2025-11-24 20:12:19
对话Kimi付强:别把模型当宠物圈养,追逐AGI就要让模型与人类共同演化
2025-10-04 10:57:38
AI助手OpenClaw爆火:一个24小时不休息的数字管家
2026-02-01 00:05:18
超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线
2025-10-15 13:33:22
腾讯混元3D-Omni、混元3D-Part发布并开源
2025-09-26 18:33:53
通义万相全新动作生成模型开源
2025-09-19 15:17:03
三部门:开展智能体与开源芯片、开源操作系统、开源大模型兼容适配
2026-05-08 18:36:29
24小时热文
更多
扫一扫体验小程序