华人团队突破Token限制:扩散模型数据效率达自回归三倍
Token危机或将成为历史。最新研究表明,在有限Token条件下,扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型,仅用1B Tokens训练480个周期,便在HellaSwag和MMLU基准测试中分别取得56%和33%的准确率,且无需额外技巧或数据筛选。
扩散模型为何如此强大?其核心优势在于两点:
1)支持双向建模。与传统自回归模型受限于因果关系不同,扩散模型通过双向注意力机制更全面地挖掘数据信息,从而提升对复杂模式的学习能力。
2)高计算密度。扩散模型在训练和推理中投入更多计算资源,通过多次迭代优化预测,显著提高性能。相比之下,自回归模型虽高效,但牺牲了部分数据潜力。
研究还发现,扩散模型对数据重复具有鲁棒性,但过度训练仍会导致过拟合。不过,这种“过拟合”并不一定影响下游任务表现。即便验证损失上升,模型的真实答案与其他选项之间的相对差距仍在扩大,表明判别能力持续提升。
论文一作Jinjie Ni(新加坡国立大学研究员)及其团队计划进一步验证这一现象,并探索更大模型与更多独特数据的影响。Ni曾就读于西北工业大学和南洋理工大学,师从Michael Shieh教授,后者是卡内基梅隆大学博士,现任新加坡国立大学助理教授。
这一突破为应对数据瓶颈提供了新方向,未来或彻底改变语言模型的训练方式。
参考链接:
[1] https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners
[2] https://threadreaderapp.com/thread/1954177095435014533.html
原文链接
本文链接:https://kx.umi6.com/article/23523.html
转载请注明文章出处
相关推荐
.png)
换一换
材料设计重大突破!微软发布创新大模型,准确率提升10倍!
2025-01-17 16:19:05
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
从不确定到安全:如何安全控制复杂物理系统
2025-07-19 17:56:25
刚刚,OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
2024-10-25 10:40:17
寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯:虚拟试衣新框架,只需两张图 30 秒即生成
2024-07-30 22:12:57
英伟达合作推出 Fast-dLLM 框架,AI 扩散模型推理速度最高飙升 27.6 倍
2025-06-03 12:54:51
谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
2024-10-23 14:39:38
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
2024-07-29 16:05:53
DeepMind大模型再登Nature:8分钟预测15日天气,准确度超顶尖物理模型
2024-12-05 16:02:34
Meta Token-Shuffle 登场:自回归模型突破瓶颈,可 AI 生成 2048×2048 分辨率图像
2025-04-26 14:49:30
Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放
2024-07-03 16:53:44
华人团队终结Token危机:扩散模型数据潜力超自回归三倍
2025-08-13 17:38:29
AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒|Adobe&MIT新研究
2024-12-10 15:56:19
472 文章
100121 浏览
24小时热文
更多

-
2025-08-18 21:53:33
-
2025-08-18 21:52:21
-
2025-08-18 21:51:16