标题:自回归新模型STAR在2.9秒内生成高质量图像
中科大、哈工大和度小满合作研发的通用文生图模型STAR,展示了自回归范式的强大性能。它仅需2.9秒就能生成比扩散模型如SDXL更高质量的图像,并在真实度、一致性及人类偏好方面表现出色。
STAR改进了自回归模型,通过增强文本引导和归一化旋转位置编码(Normalized RoPE),解决了一般自回归模型在处理复杂文本和大尺度图像时的难题。文本特征作为起始点,结合跨层注意力机制,确保生成图像与文本描述高度匹配。标准化的位置编码处理不同尺度的token map,避免混淆,简化了训练。
STAR的训练策略首先在256256上大批次训练,然后微调至512512分辨率。在多项指标上,如FID、CLIP score和ImageReward,STAR都超越了先前的模型。它在人物摄影、艺术绘画等领域展现出色细节,为文本驱动的图像生成开辟了新途径。
总结来说,STAR以高效和高性能的自回归方式,挑战了扩散模型的主导地位,为高质量图像生成带来了新的可能。论文和项目详情可通过相关链接获取。
原文链接
本文链接:https://kx.umi6.com/article/2184.html
转载请注明文章出处
相关推荐
换一换
可能是目前效果最好的开源生图模型,混元生图3.0来了
2025-09-30 21:34:24
微软 Copilot 已支持 GPT-4o 图像生成技术,能力大提升
2025-05-19 19:24:47
OpenAI的吉卜力,撞车了被字节起诉“投毒AI”的前实习生?
2025-04-03 14:24:18
谷歌nano banana官方最强Prompt模板来了!先收藏再说
2025-09-03 16:47:50
谷歌推出新一代图像生成与编辑模型NANO BANANA PRO
2025-11-20 23:50:41
GPT-4o骗了所有人,逐行画图只是前端特效?!底层架构细节成迷,奥特曼呼吁大家别玩了
2025-03-31 12:26:06
何恺明MIT开门弟子名单:奥赛双料金牌得主、清华姚班学霸在列
2024-12-03 16:20:13
Nano Banana Pro?谷歌 Gemini 3 Pro Image Preview 图像模型上线
2025-11-20 22:44:52
真如摄影、细至发丝!阿里开源新一代图像生成模型Qwen-Image
2025-12-31 21:40:29
阿里千问推出新一代图像生成基础模型Qwen-Image-2.0
2026-02-10 15:23:08
GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器
2025-04-09 17:59:20
OpenAI 扩展 Responses API:支持 MCP、图像生成等
2025-05-22 11:28:26
截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注
2025-03-13 15:23:45
705 文章
578055 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38