1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:腾讯混元升级AI绘画微调范式,人工评估分数提升300%

腾讯混元团队提出一种新方法,让AI生成图像更符合人类精细偏好,仅需在32块H20上训练10分钟即可收敛。通过优化FLUX1.dev模型,人工评估的真实感和美学评分提升3倍以上。

现有扩散模型虽可通过奖励机制贴合人类喜好,但存在两个问题:一是优化步骤少,易出现“奖励作弊”;二是需离线调整奖励模型才能达到理想效果,灵活性不足。为此,团队提出两项创新方法:Direct-Align和语义相对偏好优化(SRPO)。

Direct-Align通过预注入噪声,从任意时间步恢复原图,避免了传统方法只在后期优化的局限,减少“奖励作弊”。实验表明,即使在去噪进度仅5%的早期阶段,该方法也能恢复图像粗略结构,并支持在整个扩散轨迹上优化。相比仅在后25%时间步训练的方法,Direct-Align显著缓解了模型过度拟合奖励函数的问题。

SRPO则将奖励信号重新定义为文本条件信号,通过正面和负面提示词计算奖励差值,实现在线调整。例如,添加“Realistic photo”等控制词可提升图像真实感3.7倍,美学质量提升3.1倍。此外,SRPO还能灵活调整风格,如亮度、漫画化等。控制效果与提示词的训练集频率相关,高频词效果更佳。

实验结果显示,在FLUX.1-dev模型上,SRPO在自动评估和人工评估中均表现优异。人工评估中,真实感优秀率从8.2%提升至38.9%,美学质量优秀率从9.8%提升至40.5%。相比其他方法,SRPO生成的图像纹理更自然,无明显伪影。

值得一提的是,经过10分钟训练的FLUX.1-dev在HPDv2基准上的表现已超越最新开源版本FLUX.1.Krea。

论文地址:https://arxiv.org/abs/2509.06942
参考链接:https://x.com/_akhaliq/status/1966911634657390890

原文链接
本文链接:https://kx.umi6.com/article/25238.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯混元图像3.0图生图开源,LMArena跻身全球第一梯队,开源最强
2026-01-28 17:26:24
腾讯混元全新推理模型 T1 官宣:3 月 21 日发布
2025-03-19 21:51:02
腾讯混元推出业界首个美术级 3D 生成大模型 Hunyuan3D-PolyGen,建模效率提升超七成
2025-07-07 21:37:43
腾讯混元OCR模型宣布开源
2025-11-25 15:00:37
腾讯混元3D生成模型正式发布2.5版本新模型
2025-04-23 13:58:25
腾讯混元开源翻译模型 1.5:手机 1GB 内存即可运行,效果超越商用 API
2025-12-30 16:27:33
腾讯混元视频生成工具 HunyuanCustom 宣布开源,融合文本、图像、音频、视频等多模态输入生视频的能力
2025-05-09 12:47:33
腾讯混元发布并开源图像模型2.1,支持原生2K生图
2025-09-10 17:39:08
腾讯混元推出首款开源混合推理模型,擅长Agent工具调用和长文理解
2025-06-27 17:11:39
腾讯自研 AI 大模型混元 2.0 发布:总参数 406B,复杂推理场景综合表现“稳居国内第一梯队”
2025-12-05 22:54:39
创想三维接入腾讯混元,3D 打印进入 AI 建模时代
2025-08-11 21:08:06
腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放
2024-12-03 16:22:39
腾讯混元3D AI创作引擎正式上线
2025-01-21 15:41:07
24小时热文
更多
扫一扫体验小程序