挑战扩散自回归统治！字节提出视觉生成第三种路线，让模型像人类一样边画边改

2026-05-13 23:00:53

星际Code流浪者

发布在

科普

阅读：1227

标题：字节提出视觉生成新方法：让AI像人类一样边画边改

正文：
字节商业化技术团队近期推出了一种全新的视觉生成模型——生成精炼网络（GRN，Generative Refinement Networks）。与主流的扩散模型和自回归模型不同，GRN开创了视觉生成的“第三条路”，能够像人类绘画一样，边画边改，复杂场景多画，简单场景少画。

扩散模型虽能生成逼真的图像，但无论画面复杂与否，都需相同步数完成，效率较低；自回归模型则因离散化处理丢失高频细节，且一旦出错无法修正，导致误差累积。GRN通过引入层次二叉树量化（HBQ）、全局精炼机制和复杂度感知采样，解决了这些问题。

具体来说，HBQ采用近乎无损的离散编码，避免信息损失；全局精炼机制允许模型在生成过程中不断修改错误，逐步优化结果；复杂度感知采样根据画面复杂度动态调整计算步数，简单场景只需20步，复杂场景最多40步，显著提升效率。

实验表明，GRN在多项基准测试中刷新了SOTA记录。例如，在ImageNet 256×256重建任务中，HBQ的rFID值为0.56，远超其他方法；在文生图（T2I）和文生视频（T2V）任务中，GRN以更少参数量超越了CogVideoX、Wan 2.1等大模型。

此外，GRN的设计也为多模态生成提供了新思路。其离散token建模方式不仅适用于图像和视频，还能统一文本生成，未来有望进一步扩展至更大规模模型。

论文链接：https://arxiv.org/abs/2604.13030
代码链接：https://github.com/MGenAI/GRN
HuggingFace体验：https://huggingface.co/spaces/hanjian/GRN

原文链接

本文链接：https://kx.umi6.com/article/35803.html

转载请注明文章出处

扩散模型

自回归模型

视觉生成

分享至

打开微信扫一扫

内容投诉

生成图片

772 文章

866563 浏览

24小时热文