6月2日,英伟达联合MIT和香港大学推出Fast-dLLM框架,大幅提升扩散模型推理速度。扩散模型因词元依赖关系易破坏及计算成本高等问题,在实际应用中逊于自回归模型。Fast-dLLM通过块状近似KV缓存和置信度感知并行解码策略解决上述问题。KV缓存将序列分块预计算存储,DualCache版本进一步优化;置信度解码选择性解码高置信度词元。Fast-dLLM在GSM8K数据集上实现27.6倍加速,准确率达76.0%,并在MATH、HumanEval和MBPP测试中分别实现6.5倍至7.8倍加速,准确率仅下降1-2个百分点。这项研究使扩散模型具备与自回归模型竞争的能力,为未来广泛应用奠定基础。
原文链接
本文链接:https://kx.umi6.com/article/19613.html
转载请注明文章出处
相关推荐
换一换
扩散语言模型写代码!速度比自回归快10倍
2025-07-10 17:26:44
罗福莉加入小米后首秀,解释 MiMo-V2-Flash 模型如何做到推理速度飞快
2025-12-17 11:39:04
何恺明团队新作:扩散模型可能被用错了
2025-11-20 11:15:51
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
2024-07-29 16:05:53
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026
2025-12-12 12:47:17
华人团队终结Token危机:扩散模型数据潜力超自回归三倍
2025-08-13 17:38:29
拆分Transformer注意力,韩国人要给大模型“踩油门”
2024-07-02 20:53:35
何恺明新作:给扩散模型加正则化,无需预训练无需数据增强,超简单实现性能提升
2025-06-12 17:40:43
突破瓶颈!北航ETH等首次将扩散模型完全量化至1bit,28倍存储节省+52.7倍效率提升
2025-01-11 12:37:26
扩散模型还原被遮挡物体,几张稀疏照片也能”脑补”完整重建交互式3D场景|CVPR’25
2025-04-23 13:56:19
智谱发布新一代开源模型 极速版最高达到200tokens/秒
2025-04-15 08:25:16
DeepMind大模型再登Nature:8分钟预测15日天气,准确度超顶尖物理模型
2024-12-05 16:02:34
英伟达合作推出 Fast-dLLM 框架,AI 扩散模型推理速度最高飙升 27.6 倍
2025-06-03 12:54:51
594 文章
376598 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29