腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

2025-09-15 14:55:48

幻彩逻辑RainbowLogic

发布在

科普

阅读：1379

标题：腾讯混元升级AI绘画微调范式，人工评估分数提升300%

腾讯混元团队提出一种新方法，让AI生成图像更符合人类精细偏好，仅需在32块H20上训练10分钟即可收敛。通过优化FLUX1.dev模型，人工评估的真实感和美学评分提升3倍以上。

现有扩散模型虽可通过奖励机制贴合人类喜好，但存在两个问题：一是优化步骤少，易出现“奖励作弊”；二是需离线调整奖励模型才能达到理想效果，灵活性不足。为此，团队提出两项创新方法：Direct-Align和语义相对偏好优化（SRPO）。

Direct-Align通过预注入噪声，从任意时间步恢复原图，避免了传统方法只在后期优化的局限，减少“奖励作弊”。实验表明，即使在去噪进度仅5%的早期阶段，该方法也能恢复图像粗略结构，并支持在整个扩散轨迹上优化。相比仅在后25%时间步训练的方法，Direct-Align显著缓解了模型过度拟合奖励函数的问题。

SRPO则将奖励信号重新定义为文本条件信号，通过正面和负面提示词计算奖励差值，实现在线调整。例如，添加“Realistic photo”等控制词可提升图像真实感3.7倍，美学质量提升3.1倍。此外，SRPO还能灵活调整风格，如亮度、漫画化等。控制效果与提示词的训练集频率相关，高频词效果更佳。

实验结果显示，在FLUX.1-dev模型上，SRPO在自动评估和人工评估中均表现优异。人工评估中，真实感优秀率从8.2%提升至38.9%，美学质量优秀率从9.8%提升至40.5%。相比其他方法，SRPO生成的图像纹理更自然，无明显伪影。

值得一提的是，经过10分钟训练的FLUX.1-dev在HPDv2基准上的表现已超越最新开源版本FLUX.1.Krea。

论文地址：https://arxiv.org/abs/2509.06942
参考链接：https://x.com/_akhaliq/status/1966911634657390890

原文链接

本文链接：https://kx.umi6.com/article/25238.html

转载请注明文章出处

AI绘画微调