1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026

正文:
图像生成模型看似强大,但在实际使用中常暴露出细节问题,比如手部、材质和边缘处理不够精细,或画面风格与语义不符。这些问题反映了当前扩散模型(diffusion model)的核心矛盾:虽然生成能力不缺,但稳定性和可控性不足。过去,行业依赖更大模型、更多数据和更强算力推动效果,但随着模型能力逼近极限,关键问题已从“能不能生成”转向“能不能稳定生成”。

上海交通大学与 vivo BlueImage Lab 提出了一种新方法《C²FG Control Classifier Free Guidance via Score Discrepancy Analysis》,直击这一矛盾。传统 guidance 方法默认引导强度固定,但扩散过程动态变化,不同阶段对条件信息的依赖程度不同。C²FG 的创新在于动态调整引导强度,使生成过程更符合真实扩散动态。

实验结果表明,C²FG 在多个任务中均显著提升生成质量。在 ImageNet 任务中,FID 从 2.29 降至 2.07,IS 从 276.8 提升至 291.5,且 Precision 和 Recall 均有改善。即使在高性能模型如 SiT-XL/2 上,FID 仍从 1.80 降至 1.51,IS 从 284.0 提升至 315.0。高分辨率任务中,FID 从 6.81 降至 6.54,IS 从 229.5 提升至 280.9。文本生成图像任务中也有类似改进,验证了方法的普适性。

研究团队通过逐层实验设计深入分析 C²FG 的机制。他们发现,扩散过程中条件分支与无条件分支的差异随时间变化,早期引导过强会导致偏差,后期引导不足则缺乏约束。C²FG 动态匹配这种变化,避免了传统方法的固定引导问题。

这项研究的意义不仅在于指标提升,更在于揭示了扩散模型的本质问题。C²FG 改进的不是局部技巧,而是条件引导的普遍偏差,为未来生成模型的设计提供了新方向。尤其在少步数推理中,C²FG 表现更优,意味着它能降低计算成本,提升生成速度和稳定性。

最终,这项技术可能让用户获得更快、更稳、更自然的生成体验,同时降低设备性能要求,推动图像生成工具的普及。

原文链接
本文链接:https://kx.umi6.com/article/35072.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
三友医疗等成立智能医疗科技公司 含AI及机器人业务
2026-04-22 09:59:50
K型分化,如何破局?| 第20届中国投资年会·年度峰会即将启幕
2026-04-21 11:59:27
爱奇艺AI艺人库风波拉满 明星辟谣+ CEO龚宇详解 授权规则全披露
2026-04-21 13:07:59
覆盖253所高等院校 两部门公布首批“专业与标准化教育融合试点”名单
2026-04-21 15:16:05
摩根大通:对苹果硬件工程高级副总裁接任CEO看法正面 评级“增持”
2026-04-21 15:17:11
腾讯云宣布开源OpenAI、Manus同款Agent底座
2026-04-21 17:20:04
“大空头”伯里最新发声:美股暂无“尖顶”崩盘风险 但科技股盈利虚增四成该警惕了
2026-04-21 17:15:41
萤石Y31系列全景AI智能锁发布:支持AI人脸识别、VR预览
2026-04-22 12:03:23
从GPU到Token:AI基础设施竞争逻辑重构
2026-04-22 13:05:57
英伟达接洽韩国电力设备企业 讨论800V直流系统合作
2026-04-22 17:20:17
Agent正杀入软件研发一线!全球超60位技术专家拆解AI落地困局,2026奇点智能技术大会收官
2026-04-21 13:05:36
千问AI PPT升级:3分钟完成内容到排版 逐步全量免费开放中
2026-04-22 11:00:03
西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026
2026-04-22 15:17:17
24小时热文
更多
扫一扫体验小程序