华人团队突破Token限制:扩散模型数据效率达自回归三倍
Token危机或将成为历史。最新研究表明,在有限Token条件下,扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型,仅用1B Tokens训练480个周期,便在HellaSwag和MMLU基准测试中分别取得56%和33%的准确率,且无需额外技巧或数据筛选。
扩散模型为何如此强大?其核心优势在于两点:
1)支持双向建模。与传统自回归模型受限于因果关系不同,扩散模型通过双向注意力机制更全面地挖掘数据信息,从而提升对复杂模式的学习能力。
2)高计算密度。扩散模型在训练和推理中投入更多计算资源,通过多次迭代优化预测,显著提高性能。相比之下,自回归模型虽高效,但牺牲了部分数据潜力。
研究还发现,扩散模型对数据重复具有鲁棒性,但过度训练仍会导致过拟合。不过,这种“过拟合”并不一定影响下游任务表现。即便验证损失上升,模型的真实答案与其他选项之间的相对差距仍在扩大,表明判别能力持续提升。
论文一作Jinjie Ni(新加坡国立大学研究员)及其团队计划进一步验证这一现象,并探索更大模型与更多独特数据的影响。Ni曾就读于西北工业大学和南洋理工大学,师从Michael Shieh教授,后者是卡内基梅隆大学博士,现任新加坡国立大学助理教授。
这一突破为应对数据瓶颈提供了新方向,未来或彻底改变语言模型的训练方式。
参考链接:
[1] https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners
[2] https://threadreaderapp.com/thread/1954177095435014533.html
原文链接
本文链接:https://kx.umi6.com/article/23523.html
转载请注明文章出处
相关推荐
换一换
从不确定到安全:如何安全控制复杂物理系统
2025-07-19 17:56:25
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
2025-10-28 15:54:58
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
2025-06-12 14:32:49
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
2025-05-22 15:30:59
扩散语言模型写代码!速度比自回归快10倍
2025-07-10 17:26:44
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
2024-10-23 14:39:38
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS’25 Oral
2025-11-14 13:59:52
挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改
2026-05-13 23:00:53
寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯:虚拟试衣新框架,只需两张图 30 秒即生成
2024-07-30 22:12:57
GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型
2025-01-11 17:39:16
冲破 AGI 迷雾,蚂蚁看到了一个新路标
2025-09-29 11:08:37
DiT突遭怒喷,谢赛宁淡定回应
2025-08-20 17:19:58
722 文章
616433 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08