1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:自回归新模型STAR在2.9秒内生成高质量图像

中科大、哈工大和度小满合作研发的通用文生图模型STAR,展示了自回归范式的强大性能。它仅需2.9秒就能生成比扩散模型如SDXL更高质量的图像,并在真实度、一致性及人类偏好方面表现出色。

STAR改进了自回归模型,通过增强文本引导和归一化旋转位置编码(Normalized RoPE),解决了一般自回归模型在处理复杂文本和大尺度图像时的难题。文本特征作为起始点,结合跨层注意力机制,确保生成图像与文本描述高度匹配。标准化的位置编码处理不同尺度的token map,避免混淆,简化了训练。

STAR的训练策略首先在256256上大批次训练,然后微调至512512分辨率。在多项指标上,如FID、CLIP score和ImageReward,STAR都超越了先前的模型。它在人物摄影、艺术绘画等领域展现出色细节,为文本驱动的图像生成开辟了新途径。

总结来说,STAR以高效和高性能的自回归方式,挑战了扩散模型的主导地位,为高质量图像生成带来了新的可能。论文和项目详情可通过相关链接获取。

原文链接
本文链接:https://kx.umi6.com/article/2184.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌发布新一代图像生成模型 Nano Banana Pro:基于 Gemini 3 Pro 打造,支持 4K 分辨率与完美文字渲染
2025-11-20 23:48:33
通义千问开源全新文生图模型Qwen-Image
2025-08-05 07:09:44
AI 人像以假乱真,阿里通义 Qwen-Image-2512 模型开源发布
2025-12-31 18:33:39
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
微软 Copilot 已支持 GPT-4o 图像生成技术,能力大提升
2025-05-19 19:24:47
打开必应就能生图,微软 Bing Image Creator 免费接入 GPT-4o
2025-08-07 15:51:50
OpenAI 直播狙击谷歌:奥尔特曼 AGI 梗图现场直出,GPT-4o 超强原生生图来袭
2025-03-26 07:39:42
扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了
2026-02-26 10:41:31
谷歌推出新一代图像生成与编辑模型NANO BANANA PRO
2025-11-20 23:50:41
谷歌Gemini火力全开!实测:原生图像生成新升级确实强
2025-05-08 12:28:50
国内最强生图模型Wan2.7-Image来了
2026-04-01 18:01:59
Recraft 完成 3000 万美元 B 轮融资,其图像生成模型曾击败 DALL-E 和 Midjourney
2025-05-06 17:58:54
GPT-4o的P图太火了,GPU在融化,官方终于限流了
2025-03-28 21:07:22
24小时热文
更多
扫一扫体验小程序