1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:13.8倍吞吐提升!浙大上海AI Lab提出视觉生成新范式:从“下一个token”到“下一个邻域”

正文:

13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”

在图像/视频生成任务中,传统的“下一个token预测”方法正面临效率瓶颈。为此,浙大、上海AI Lab等机构的研究人员提出了一种全新的视觉生成范式——邻近自回归建模(Neighboring Autoregressive Modeling, NAR)。NAR模型采用“下一个邻域预测”机制,将生成过程视为逐步扩展的“外绘”过程。

具体来说,NAR模型从初始token开始,按曼哈顿距离从小到大生成token。这种顺序不仅保留了空间和时间的局部性,还允许模型并行预测多个相邻token。为实现这一点,研究团队引入了维度导向的解码头,每个头负责一个正交维度上的预测。

通过这种方式,NAR模型大幅减少生成所需的前向计算步骤,显著提升效率。在ImageNet 256×256数据集上,NAR-L模型以372M参数超越1.4B参数的LlamaGen-XXL,同时带来13.8倍吞吐提升。在UCF-101数据集上,NAR模型相比传统自回归模型减少97.3%的生成步骤,并在视频生成中实现8.6倍吞吐提升。

此外,NAR模型在文本到图像生成任务中仅用0.4%的数据便达到与Stable Diffusion v1.5相当的性能,且吞吐率提升166倍。这些成果表明,NAR模型在效率和质量上均优于现有方法。

更多细节请参考论文:https://www.arxiv.org/abs/2503.10696,项目主页:https://yuanyu0.github.io/nar/,代码地址:https://github.com/ThisisBillhe/NAR

原文链接
本文链接:https://kx.umi6.com/article/16418.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
2025-03-30 11:29:15
质量无损,算力砍半!达摩院开源视觉生成新架构,出道即SOTA|ICLR 2025
2025-04-25 15:12:35
效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广字节全新框架
2025-06-07 14:49:46
Netflix 宣布全力投入 AI:“能帮人类把故事讲得更好”
2025-10-22 16:48:46
Reddit 起诉 Perplexity,指控后者未经授权为 AI 抓取和使用数据
2025-10-23 16:09:59
网易云信10周年宣布品牌升级,从“基础通信管道”到“AI交互引擎”
2025-10-23 15:10:38
LiblibAI完成1.3亿美元B轮融资 为中国AI应用今年最大融资
2025-10-22 22:54:13
Anthropic确认与谷歌云达成价值数百亿美元的合作协议
2025-10-24 05:23:38
马斯克详谈AI5芯片:由三星和台积电一起生产,不会弃用英伟达GPU!
2025-10-23 10:06:47
慧思开物SDK正式开放 北京人形加速构建具身智能生态新格局
2025-10-23 15:11:25
研究显示:低质数据可令 AI“大脑退化”,OpenAI 奥尔特曼担心的“死网论”正逐渐成真
2025-10-22 20:51:26
重磅应用密集上线,同时“硬刚”谷歌、亚马逊和Meta,OpenAI急了?今年要“烧”85亿美元
2025-10-22 21:52:10
“超级周期”持续演绎 三星和SK海力士将内存价格上调30%
2025-10-23 13:08:10
24小时热文
更多
扫一扫体验小程序