1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:CVPR 2026 生成式 AI 观察:视觉模型重构底层设定

正文:
近年来,视觉生成与理解领域的技术发展多围绕既有框架优化性能,但今年 CVPR 的一批代表性工作显示,研究重点正从“增量修补”转向对底层假设的重新审视。扩散模型的引导机制、视频生成是否依赖去噪、生成目标是否合理等基础问题被重新提出。这意味着视觉 AI 的竞争正从性能提升转向对默认设定的回溯性重构。

上海交通大学与 vivo BlueImage Lab 提出《C²FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》,挑战扩散模型中常用的 Classifier-Free Guidance(CFG)。传统 CFG 使用固定引导强度,难以适应扩散过程中的动态变化。C²FG 提出基于指数衰减的动态引导机制,在采样前期强化条件约束,后期减弱以避免分布偏移,打破了经验调参的惯性,并具备无需重新训练的工程迁移性。

苹果团队的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》则重新思考视频生成架构。当前高质量视频生成几乎完全依赖扩散模型的反复去噪,而 STARFlow-V 构建了一种基于 normalizing flow 的端到端生成范式,利用 global-local 自回归结构解决长时序依赖和跨帧一致性问题,同时支持多种任务,开辟了视频生成的新技术路线。

MIT 团队的《Back to Basics: Let Denoising Generative Models Denoise》进一步质疑扩散模型的核心预测目标。主流模型通常预测噪声残差而非干净图像,但研究指出直接回归数据流形可能更自然稳定。JiT 模型使用大 patch Transformer 直接预测干净图像,打破路径依赖,为高分辨率生成提供更自洽的逻辑。

在控制精度方面,德国图宾根大学等提出的《FrankenMotion: Part-level Human Motion Generation and Composition》将人体动作生成推向细粒度编排。通过分解动作单元并引入逐帧标注数据集,FrankenMotion 实现了对局部肢体动作的精确控制,能够组合出未见过的复杂动作。

意大利都灵理工大学等的《MARCO: Navigating the Unseen Space of Semantic Correspondence》则关注语义匹配的泛化能力。现有方法在未见关键点或类别上表现不佳,MARCO 通过 dense self-distillation 机制学习连续语义关联,显著提升了泛化性能和效率。

这些工作虽来自不同领域,但共同指向同一趋势:视觉 AI 正从既定范式的性能竞争,转向对底层设定的重构竞争。这标志着新一波技术革新浪潮的到来。

原文链接
本文链接:https://kx.umi6.com/article/35381.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
MuleRun(骡子快跑)首发灰测HappyHorse模型,支持用户7×24小时调用
2026-04-28 14:15:35
国家数据局:扎实推进数据基础设施建设
2026-04-29 13:27:33
研究发现AI可以早早发现胰腺癌 比影像上“可见”提前数年
2026-04-29 15:31:26
星辰大模型等十项中央企业数字技术成果发布 全链路自主可控
2026-04-30 11:21:04
0费率免费使用!支付宝 AI 收正式上线 三步接入即时收款
2026-04-28 18:32:47
2025年我国词元调用量约21100万亿 呈现指数级增长
2026-04-29 11:17:41
腾讯开源手机端离线翻译模型,仅0.4G,支持33种语言
2026-04-29 17:32:26
刚刚,“云计算一哥”版龙虾发布,奥特曼打着官司也要云站台
2026-04-29 13:20:35
蒙玺投资创始人李骧:目前AI逐步渗透量化投资 但缺乏真正的决策能力
2026-04-28 17:31:21
两部门:到2026年底基本形成“数据-模型-场景应用”良性互促的循环 推动人工智能高水平赋能新型工业化
2026-04-28 15:26:38
中国AI爆发式增长!2025年词元调用量达21100万亿 日均冲上百万亿
2026-04-29 12:18:53
苹果计划在iOS27中推出Siri相机模式并升级视觉人工智能功能
2026-04-30 00:49:05
CVPR 2026 多模态视觉智能全景梳理:从感知到推理的范式重写
2026-04-30 11:17:11
24小时热文
更多
扫一扫体验小程序