标题:CVPR 2026 生成式 AI 观察:视觉模型重构底层设定
正文:
近年来,视觉生成与理解领域的技术发展多围绕既有框架优化性能,但今年 CVPR 的一批代表性工作显示,研究重点正从“增量修补”转向对底层假设的重新审视。扩散模型的引导机制、视频生成是否依赖去噪、生成目标是否合理等基础问题被重新提出。这意味着视觉 AI 的竞争正从性能提升转向对默认设定的回溯性重构。
上海交通大学与 vivo BlueImage Lab 提出《C²FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》,挑战扩散模型中常用的 Classifier-Free Guidance(CFG)。传统 CFG 使用固定引导强度,难以适应扩散过程中的动态变化。C²FG 提出基于指数衰减的动态引导机制,在采样前期强化条件约束,后期减弱以避免分布偏移,打破了经验调参的惯性,并具备无需重新训练的工程迁移性。
苹果团队的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》则重新思考视频生成架构。当前高质量视频生成几乎完全依赖扩散模型的反复去噪,而 STARFlow-V 构建了一种基于 normalizing flow 的端到端生成范式,利用 global-local 自回归结构解决长时序依赖和跨帧一致性问题,同时支持多种任务,开辟了视频生成的新技术路线。
MIT 团队的《Back to Basics: Let Denoising Generative Models Denoise》进一步质疑扩散模型的核心预测目标。主流模型通常预测噪声残差而非干净图像,但研究指出直接回归数据流形可能更自然稳定。JiT 模型使用大 patch Transformer 直接预测干净图像,打破路径依赖,为高分辨率生成提供更自洽的逻辑。
在控制精度方面,德国图宾根大学等提出的《FrankenMotion: Part-level Human Motion Generation and Composition》将人体动作生成推向细粒度编排。通过分解动作单元并引入逐帧标注数据集,FrankenMotion 实现了对局部肢体动作的精确控制,能够组合出未见过的复杂动作。
意大利都灵理工大学等的《MARCO: Navigating the Unseen Space of Semantic Correspondence》则关注语义匹配的泛化能力。现有方法在未见关键点或类别上表现不佳,MARCO 通过 dense self-distillation 机制学习连续语义关联,显著提升了泛化性能和效率。
这些工作虽来自不同领域,但共同指向同一趋势:视觉 AI 正从既定范式的性能竞争,转向对底层设定的重构竞争。这标志着新一波技术革新浪潮的到来。
-
2026-04-30 12:22:36 -
2026-04-30 12:21:30 -
2026-04-30 12:20:19