华人团队突破Token限制:扩散模型数据效率达自回归三倍
Token危机或将成为历史。最新研究表明,在有限Token条件下,扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型,仅用1B Tokens训练480个周期,便在HellaSwag和MMLU基准测试中分别取得56%和33%的准确率,且无需额外技巧或数据筛选。
扩散模型为何如此强大?其核心优势在于两点:
1)支持双向建模。与传统自回归模型受限于因果关系不同,扩散模型通过双向注意力机制更全面地挖掘数据信息,从而提升对复杂模式的学习能力。
2)高计算密度。扩散模型在训练和推理中投入更多计算资源,通过多次迭代优化预测,显著提高性能。相比之下,自回归模型虽高效,但牺牲了部分数据潜力。
研究还发现,扩散模型对数据重复具有鲁棒性,但过度训练仍会导致过拟合。不过,这种“过拟合”并不一定影响下游任务表现。即便验证损失上升,模型的真实答案与其他选项之间的相对差距仍在扩大,表明判别能力持续提升。
论文一作Jinjie Ni(新加坡国立大学研究员)及其团队计划进一步验证这一现象,并探索更大模型与更多独特数据的影响。Ni曾就读于西北工业大学和南洋理工大学,师从Michael Shieh教授,后者是卡内基梅隆大学博士,现任新加坡国立大学助理教授。
这一突破为应对数据瓶颈提供了新方向,未来或彻底改变语言模型的训练方式。
参考链接:
[1] https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners
[2] https://threadreaderapp.com/thread/1954177095435014533.html
原文链接
本文链接:https://kx.umi6.com/article/23523.html
转载请注明文章出处
相关推荐
.png)
换一换
图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight
2025-08-01 14:00:21
AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒|Adobe&MIT新研究
2024-12-10 15:56:19
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
DiT突遭怒喷,谢赛宁淡定回应
2025-08-20 17:19:58
扩散模型还原被遮挡物体,几张稀疏照片也能”脑补”完整重建交互式3D场景|CVPR’25
2025-04-23 13:56:19
材料设计重大突破!微软发布创新大模型,准确率提升10倍!
2025-01-17 16:19:05
嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
2025-02-18 13:14:03
谢赛宁新作:VAE退役,RAE当立
2025-10-14 17:20:36
Meta Token-Shuffle 登场:自回归模型突破瓶颈,可 AI 生成 2048×2048 分辨率图像
2025-04-26 14:49:30
扩散语言模型写代码!速度比自回归快10倍
2025-07-10 17:26:44
OpenAI宋飏被Meta挖跑了!扩散模型崛起关键人物,加入MSL再会师清华校友赵晟佳
2025-09-25 22:11:00
刚刚,OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
2024-10-25 10:40:17
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
2025-07-04 18:47:36
540 文章
255492 浏览
24小时热文
更多

-
2025-10-24 01:20:07
-
2025-10-24 00:18:56
-
2025-10-23 21:15:29