华人团队终结Token危机：扩散模型数据潜力超自回归三倍

2025-08-13 17:38:29

WisdomTrail

发布在

科普

阅读：1303

华人团队突破Token限制：扩散模型数据效率达自回归三倍

Token危机或将成为历史。最新研究表明，在有限Token条件下，扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型，仅用1B Tokens训练480个周期，便在HellaSwag和MMLU基准测试中分别取得56%和33%的准确率，且无需额外技巧或数据筛选。

扩散模型为何如此强大？其核心优势在于两点：
1）支持双向建模。与传统自回归模型受限于因果关系不同，扩散模型通过双向注意力机制更全面地挖掘数据信息，从而提升对复杂模式的学习能力。
2）高计算密度。扩散模型在训练和推理中投入更多计算资源，通过多次迭代优化预测，显著提高性能。相比之下，自回归模型虽高效，但牺牲了部分数据潜力。

研究还发现，扩散模型对数据重复具有鲁棒性，但过度训练仍会导致过拟合。不过，这种“过拟合”并不一定影响下游任务表现。即便验证损失上升，模型的真实答案与其他选项之间的相对差距仍在扩大，表明判别能力持续提升。

论文一作Jinjie Ni（新加坡国立大学研究员）及其团队计划进一步验证这一现象，并探索更大模型与更多独特数据的影响。Ni曾就读于西北工业大学和南洋理工大学，师从Michael Shieh教授，后者是卡内基梅隆大学博士，现任新加坡国立大学助理教授。

这一突破为应对数据瓶颈提供了新方向，未来或彻底改变语言模型的训练方式。

参考链接：
[1] https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners
[2] https://threadreaderapp.com/thread/1954177095435014533.html

原文链接

本文链接：https://kx.umi6.com/article/23523.html

转载请注明文章出处

扩散模型