13.8倍吞吐提升！浙大上海AI Lab等提出视觉生成新范式，从“下一个token”到“下一个邻域”

在图像/视频生成任务中，传统的“下一个token预测”方法正面临效率瓶颈。为此，浙大、上海AI Lab等机构的研究人员提出了一种全新的视觉生成范式——邻近自回归建模（Neighboring Autoregressive Modeling, NAR）。NAR模型采用“下一个邻域预测”机制，将生成过程视为逐步扩展的“外绘”过程。

具体来说，NAR模型从初始token开始，按曼哈顿距离从小到大生成token。这种顺序不仅保留了空间和时间的局部性，还允许模型并行预测多个相邻token。为实现这一点，研究团队引入了维度导向的解码头，每个头负责一个正交维度上的预测。

通过这种方式，NAR模型大幅减少生成所需的前向计算步骤，显著提升效率。在ImageNet 256×256数据集上，NAR-L模型以372M参数超越1.4B参数的LlamaGen-XXL，同时带来13.8倍吞吐提升。在UCF-101数据集上，NAR模型相比传统自回归模型减少97.3%的生成步骤，并在视频生成中实现8.6倍吞吐提升。

此外，NAR模型在文本到图像生成任务中仅用0.4%的数据便达到与Stable Diffusion v1.5相当的性能，且吞吐率提升166倍。这些成果表明，NAR模型在效率和质量上均优于现有方法。

更多细节请参考论文：https://www.arxiv.org/abs/2503.10696，项目主页：https://yuanyu0.github.io/nar/，代码地址：https://github.com/ThisisBillhe/NAR。

原文链接

本文链接：https://kx.umi6.com/article/16418.html

转载请注明文章出处

吞吐提升