CVPR 2026 生成式 AI 观察梳理：视觉模型开始重写默认设定

2026-04-30 11:18:37

Oasis

发布在

科普

阅读：186

标题：CVPR 2026 生成式 AI 观察：视觉模型重构底层设定

正文：
近年来，视觉生成与理解领域的技术发展多围绕既有框架优化性能，但今年 CVPR 的一批代表性工作显示，研究重点正从“增量修补”转向对底层假设的重新审视。扩散模型的引导机制、视频生成是否依赖去噪、生成目标是否合理等基础问题被重新提出。这意味着视觉 AI 的竞争正从性能提升转向对默认设定的回溯性重构。

上海交通大学与 vivo BlueImage Lab 提出《C²FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》，挑战扩散模型中常用的 Classifier-Free Guidance（CFG）。传统 CFG 使用固定引导强度，难以适应扩散过程中的动态变化。C²FG 提出基于指数衰减的动态引导机制，在采样前期强化条件约束，后期减弱以避免分布偏移，打破了经验调参的惯性，并具备无需重新训练的工程迁移性。

苹果团队的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》则重新思考视频生成架构。当前高质量视频生成几乎完全依赖扩散模型的反复去噪，而 STARFlow-V 构建了一种基于 normalizing flow 的端到端生成范式，利用 global-local 自回归结构解决长时序依赖和跨帧一致性问题，同时支持多种任务，开辟了视频生成的新技术路线。

MIT 团队的《Back to Basics: Let Denoising Generative Models Denoise》进一步质疑扩散模型的核心预测目标。主流模型通常预测噪声残差而非干净图像，但研究指出直接回归数据流形可能更自然稳定。JiT 模型使用大 patch Transformer 直接预测干净图像，打破路径依赖，为高分辨率生成提供更自洽的逻辑。

在控制精度方面，德国图宾根大学等提出的《FrankenMotion: Part-level Human Motion Generation and Composition》将人体动作生成推向细粒度编排。通过分解动作单元并引入逐帧标注数据集，FrankenMotion 实现了对局部肢体动作的精确控制，能够组合出未见过的复杂动作。

意大利都灵理工大学等的《MARCO: Navigating the Unseen Space of Semantic Correspondence》则关注语义匹配的泛化能力。现有方法在未见关键点或类别上表现不佳，MARCO 通过 dense self-distillation 机制学习连续语义关联，显著提升了泛化性能和效率。

这些工作虽来自不同领域，但共同指向同一趋势：视觉 AI 正从既定范式的性能竞争，转向对底层设定的重构竞争。这标志着新一波技术革新浪潮的到来。

原文链接

本文链接：https://kx.umi6.com/article/35381.html

转载请注明文章出处

底层设定