8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源
仅需8张GPU,就能实现近SOTA的高质量图像生成效果。模型名为LightGen,由港科大Harry Yang团队联合Everlyn AI等机构打造,借助知识蒸馏(KD)和直接偏好优化(DPO)策略,大幅降低训练成本。
LightGen参数量更小、数据规模更精简,却在多项基准评测中超越部分SOTA模型。其训练时间从数千GPU days缩短至88个GPU days,显著提升效率。LightGen采用两阶段训练:先用SOTA模型生成高质量合成数据,再通过DPO优化细节与空间关系。
实验显示,LightGen在256×256和512×512分辨率下的表现接近或超过现有SOTA模型。加入DPO后,模型在位置准确性和高频细节方面表现更佳。数据规模达200万张时,性能趋于饱和。未来可探索其在视频生成等领域的应用。
论文链接:https://arxiv.org/abs/2503.08619
模型链接:https://huggingface.co/Beckham808/LightGen
项目链接:https://github.com/XianfengWu01/LightGen
原文链接
本文链接:https://kx.umi6.com/article/15712.html
转载请注明文章出处
相关推荐
换一换
反超Nano Banana!OpenAI旗舰图像生成模型上线
2025-12-17 10:33:36
“计算机视觉被GPT-4o终结了”(狗头)
2025-03-29 17:49:47
GPT-4o图像生成今起免费!奥特曼坐镇紧急发布,指令遵循/文本控制表现惊艳
2025-03-26 10:43:57
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
2024-11-13 14:38:52
OpenAI 联合创始人 Ilya Sutskever:AI 预训练时代即将结束
2024-12-16 09:36:48
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
2024-06-27 13:56:56
微软 Copilot 已支持 GPT-4o 图像生成技术,能力大提升
2025-05-19 19:24:47
AI 人像以假乱真,阿里通义 Qwen-Image-2512 模型开源发布
2025-12-31 18:33:39
阿里通义千问首个图像生成基础模型 Qwen-Image 开源,支持中文高保真输出
2025-08-05 08:08:59
全新预训练数据筛选方案,让数据效率提升10倍!配置仅需fastText评分器|港科大vivo出品
2025-05-16 13:48:48
GPT-4o的P图太火了,GPU在融化,官方终于限流了
2025-03-28 21:07:22
GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器
2025-04-09 17:59:20
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
787 文章
714870 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13