华人团队突破Token限制:扩散模型数据效率达自回归三倍
Token危机或将成为历史。最新研究表明,在有限Token条件下,扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型,仅用1B Tokens训练480个周期,便在HellaSwag和MMLU基准测试中分别取得56%和33%的准确率,且无需额外技巧或数据筛选。
扩散模型为何如此强大?其核心优势在于两点:
1)支持双向建模。与传统自回归模型受限于因果关系不同,扩散模型通过双向注意力机制更全面地挖掘数据信息,从而提升对复杂模式的学习能力。
2)高计算密度。扩散模型在训练和推理中投入更多计算资源,通过多次迭代优化预测,显著提高性能。相比之下,自回归模型虽高效,但牺牲了部分数据潜力。
研究还发现,扩散模型对数据重复具有鲁棒性,但过度训练仍会导致过拟合。不过,这种“过拟合”并不一定影响下游任务表现。即便验证损失上升,模型的真实答案与其他选项之间的相对差距仍在扩大,表明判别能力持续提升。
论文一作Jinjie Ni(新加坡国立大学研究员)及其团队计划进一步验证这一现象,并探索更大模型与更多独特数据的影响。Ni曾就读于西北工业大学和南洋理工大学,师从Michael Shieh教授,后者是卡内基梅隆大学博士,现任新加坡国立大学助理教授。
这一突破为应对数据瓶颈提供了新方向,未来或彻底改变语言模型的训练方式。
参考链接:
[1] https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners
[2] https://threadreaderapp.com/thread/1954177095435014533.html
原文链接
本文链接:https://kx.umi6.com/article/23523.html
转载请注明文章出处
相关推荐
换一换
刚刚,OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
2024-10-25 10:40:17
嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
2025-02-18 13:14:03
ViT一作盛赞:这个中国开源“PS模型”强过Nano Banana
2025-12-29 13:21:05
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
英伟达合作推出 Fast-dLLM 框架,AI 扩散模型推理速度最高飙升 27.6 倍
2025-06-03 12:54:51
小众架构赢麻了!通过编辑功能让100B扩散模型飙出892 tokens/秒的速度!
2026-02-11 10:10:31
OpenAI宋飏被Meta挖跑了!扩散模型崛起关键人物,加入MSL再会师清华校友赵晟佳
2025-09-25 22:11:00
谢赛宁新作:VAE退役,RAE当立
2025-10-14 17:20:36
AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒|Adobe&MIT新研究
2024-12-10 15:56:19
何恺明团队新作:扩散模型可能被用错了
2025-11-20 11:15:51
寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯:虚拟试衣新框架,只需两张图 30 秒即生成
2024-07-30 22:12:57
VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
2025-10-28 15:54:58
扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了
2026-02-26 10:41:31
696 文章
535820 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38