英伟达合作推出 Fast-dLLM 框架，AI 扩散模型推理速度最高飙升 27.6 倍

2025-06-03 12:54:51

心智奇点

发布在

快讯

阅读：664

6月2日，英伟达联合MIT和香港大学推出Fast-dLLM框架，大幅提升扩散模型推理速度。扩散模型因词元依赖关系易破坏及计算成本高等问题，在实际应用中逊于自回归模型。Fast-dLLM通过块状近似KV缓存和置信度感知并行解码策略解决上述问题。KV缓存将序列分块预计算存储，DualCache版本进一步优化；置信度解码选择性解码高置信度词元。Fast-dLLM在GSM8K数据集上实现27.6倍加速，准确率达76.0%，并在MATH、HumanEval和MBPP测试中分别实现6.5倍至7.8倍加速，准确率仅下降1-2个百分点。这项研究使扩散模型具备与自回归模型竞争的能力，为未来广泛应用奠定基础。

原文链接

本文链接：https://kx.umi6.com/article/19613.html

转载请注明文章出处

Fast-dLLM