标题:13.8倍吞吐提升!浙大上海AI Lab提出视觉生成新范式:从“下一个token”到“下一个邻域”
正文:
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
在图像/视频生成任务中,传统的“下一个token预测”方法正面临效率瓶颈。为此,浙大、上海AI Lab等机构的研究人员提出了一种全新的视觉生成范式——邻近自回归建模(Neighboring Autoregressive Modeling, NAR)。NAR模型采用“下一个邻域预测”机制,将生成过程视为逐步扩展的“外绘”过程。
具体来说,NAR模型从初始token开始,按曼哈顿距离从小到大生成token。这种顺序不仅保留了空间和时间的局部性,还允许模型并行预测多个相邻token。为实现这一点,研究团队引入了维度导向的解码头,每个头负责一个正交维度上的预测。
通过这种方式,NAR模型大幅减少生成所需的前向计算步骤,显著提升效率。在ImageNet 256×256数据集上,NAR-L模型以372M参数超越1.4B参数的LlamaGen-XXL,同时带来13.8倍吞吐提升。在UCF-101数据集上,NAR模型相比传统自回归模型减少97.3%的生成步骤,并在视频生成中实现8.6倍吞吐提升。
此外,NAR模型在文本到图像生成任务中仅用0.4%的数据便达到与Stable Diffusion v1.5相当的性能,且吞吐率提升166倍。这些成果表明,NAR模型在效率和质量上均优于现有方法。
更多细节请参考论文:https://www.arxiv.org/abs/2503.10696,项目主页:https://yuanyu0.github.io/nar/,代码地址:https://github.com/ThisisBillhe/NAR。
原文链接
本文链接:https://kx.umi6.com/article/16418.html
转载请注明文章出处
相关推荐
换一换
质量无损,算力砍半!达摩院开源视觉生成新架构,出道即SOTA|ICLR 2025
2025-04-25 15:12:35
效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广字节全新框架
2025-06-07 14:49:46
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
2025-03-30 11:29:15
美以伊冲突社媒充斥大量AI图像 画面真假难辨
2026-03-06 20:34:53
全国人大代表张帆:建议研究出台加强工业数据集建设的财税支持政策
2026-03-06 19:29:19
麦肯锡:AI不是对手而是工具 善用AI的毕业生就业更吃香
2026-03-06 23:43:55
黄仁勋:AI智能体将彻底改造软件 笨软件即将消失
2026-03-08 14:08:18
鹅厂门口免费装龙虾,几百人排爆了!一代人有一代人的鸡蛋要领
2026-03-08 18:25:43
科研AI出了个狠角色:开源30B小模型,硬刚Gemini和Claude
2026-03-09 12:34:15
AI将胜任80%岗位!亿万富翁:如今5岁儿童成年后将无需再为生存而工作
2026-03-06 15:12:02
无需排队工业级漫剧制作:360纳米漫剧流水线抢跑AI影视工业化
2026-03-06 10:46:51
近千名爱好者在深圳腾讯大厦门口排队安装OpenClaw 今早11点预约号发放完毕
2026-03-06 17:21:47
首个物理AI数据基座平台“无垠”落户浙江,专治机器人数据荒,家庭工业商业场景全覆盖
2026-03-09 19:00:56
762 文章
522805 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18