标题:字节提出视觉生成新方法:让AI像人类一样边画边改
正文:
字节商业化技术团队近期推出了一种全新的视觉生成模型——生成精炼网络(GRN,Generative Refinement Networks)。与主流的扩散模型和自回归模型不同,GRN开创了视觉生成的“第三条路”,能够像人类绘画一样,边画边改,复杂场景多画,简单场景少画。
扩散模型虽能生成逼真的图像,但无论画面复杂与否,都需相同步数完成,效率较低;自回归模型则因离散化处理丢失高频细节,且一旦出错无法修正,导致误差累积。GRN通过引入层次二叉树量化(HBQ)、全局精炼机制和复杂度感知采样,解决了这些问题。
具体来说,HBQ采用近乎无损的离散编码,避免信息损失;全局精炼机制允许模型在生成过程中不断修改错误,逐步优化结果;复杂度感知采样根据画面复杂度动态调整计算步数,简单场景只需20步,复杂场景最多40步,显著提升效率。
实验表明,GRN在多项基准测试中刷新了SOTA记录。例如,在ImageNet 256×256重建任务中,HBQ的rFID值为0.56,远超其他方法;在文生图(T2I)和文生视频(T2V)任务中,GRN以更少参数量超越了CogVideoX、Wan 2.1等大模型。
此外,GRN的设计也为多模态生成提供了新思路。其离散token建模方式不仅适用于图像和视频,还能统一文本生成,未来有望进一步扩展至更大规模模型。
论文链接:https://arxiv.org/abs/2604.13030
代码链接:https://github.com/MGenAI/GRN
HuggingFace体验:https://huggingface.co/spaces/hanjian/GRN
原文链接
本文链接:https://kx.umi6.com/article/35803.html
转载请注明文章出处
相关推荐
换一换
2025年行业重点研究优秀课题公示 26家券商有望文化建设加分
2026-05-13 10:09:12
百度智能云:昆仑芯完成文心5.1重要版本训练 天池256卡超节点6月正式上市
2026-05-13 12:37:57
马斯克爆出「权力暗桩」,奥特曼进入反击时刻?
2026-05-12 15:18:46
科大讯飞、无锡数据集团等成立信息科技公司
2026-05-13 15:43:43
商汤善惠烧卖购机器人小店上海“开业”,让机器人真正落地线下零售
2026-05-12 18:23:44
韩官员称以AI收益发放“公民红利”言论仅代表发言者个人观点
2026-05-12 18:28:13
DeepSeek回应聊天记录搜索:正在灰度测试 并非全量推送
2026-05-12 15:16:09
谷歌最新报告:黑客已学会用AI辅助挖漏洞
2026-05-13 00:42:17
估值200亿美元!可灵AI被曝剥离快手单独融资
2026-05-12 14:11:54
黄仁勋2026财年总薪酬约3630万美元 较2025财年下降27%
2026-05-13 14:42:11
Auto Research时代,47个没有标准答案的任务成了Agent能力必测榜
2026-05-13 12:34:40
抖音电商:持续推进仿冒治理 已拦截侵权视频超17万条
2026-05-13 12:36:51
美股IPO在即 美众议院监督委员会对OpenAI首席执行官展开调查
2026-05-12 12:10:23
737 文章
626366 浏览
24小时热文
更多
-
2026-05-13 23:02:03 -
2026-05-13 23:00:53 -
2026-05-13 22:05:28