1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

华人团队突破Token限制:扩散模型数据效率达自回归三倍

Token危机或将成为历史。最新研究表明,在有限Token条件下,扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型,仅用1B Tokens训练480个周期,便在HellaSwag和MMLU基准测试中分别取得56%和33%的准确率,且无需额外技巧或数据筛选。

扩散模型为何如此强大?其核心优势在于两点:
1)支持双向建模。与传统自回归模型受限于因果关系不同,扩散模型通过双向注意力机制更全面地挖掘数据信息,从而提升对复杂模式的学习能力。
2)高计算密度。扩散模型在训练和推理中投入更多计算资源,通过多次迭代优化预测,显著提高性能。相比之下,自回归模型虽高效,但牺牲了部分数据潜力。

研究还发现,扩散模型对数据重复具有鲁棒性,但过度训练仍会导致过拟合。不过,这种“过拟合”并不一定影响下游任务表现。即便验证损失上升,模型的真实答案与其他选项之间的相对差距仍在扩大,表明判别能力持续提升。

论文一作Jinjie Ni(新加坡国立大学研究员)及其团队计划进一步验证这一现象,并探索更大模型与更多独特数据的影响。Ni曾就读于西北工业大学和南洋理工大学,师从Michael Shieh教授,后者是卡内基梅隆大学博士,现任新加坡国立大学助理教授。

这一突破为应对数据瓶颈提供了新方向,未来或彻底改变语言模型的训练方式。

参考链接:
[1] https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners
[2] https://threadreaderapp.com/thread/1954177095435014533.html

原文链接
本文链接:https://kx.umi6.com/article/23523.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
2024-10-23 14:39:38
冲破 AGI 迷雾,蚂蚁看到了一个新路标
2025-09-29 11:08:37
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
2025-06-12 14:32:49
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
2025-05-22 15:30:59
突破瓶颈!北航ETH等首次将扩散模型完全量化至1bit,28倍存储节省+52.7倍效率提升
2025-01-11 12:37:26
ViT一作盛赞:这个中国开源“PS模型”强过Nano Banana
2025-12-29 13:21:05
图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight
2025-08-01 14:00:21
GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型
2025-01-11 17:39:16
Meta Token-Shuffle 登场:自回归模型突破瓶颈,可 AI 生成 2048×2048 分辨率图像
2025-04-26 14:49:30
MSRA:视觉生成六大技术问题
2024-07-13 12:09:52
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
2025-07-04 18:47:36
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026
2025-12-12 12:47:17
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
2024-07-29 16:05:53
24小时热文
更多
扫一扫体验小程序