标题:何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026
正文:
2025年至2026年,生成式AI领域最值得关注的方向之一是流匹配(Flow Matching)。这一方法用常微分方程路径替代扩散模型的随机微分方程路径,从而大幅提升生成效率。然而,从理论到工程落地仍需解决诸多技术难题。何恺明团队近期在CVPR上发表的五篇论文,为这一领域提供了多角度的突破性解答。
让“去噪”模型真正做一次去噪
JiT提出了一种返璞归真的思路:直接预测干净图像x,而非噪声ε。传统扩散模型因预测目标偏离自然图像流形,导致不稳定性和额外复杂性。JiT通过Vision Transformer大幅简化架构,并允许更大的patch尺寸(如16×16至64×64),显著提升效率。最终,该模型在ImageNet 512×512上实现了FID 1.78,且无需蒸馏或外部辅助。
视觉推理的新可能:VARC
VARC挑战了ARC任务长期依赖语言模型的假设,将其重新建模为图像到图像的翻译问题。仅用18M参数的ViT模型,VARC在ARC-1上达到单模型54.5%、集成60.4%的准确率,接近人类水平。其关键在于“画布”机制扩展token空间,以及测试时训练(TTT)快速学习规则的能力。这证明纯视觉方法在抽象推理任务上的潜力被低估。
BiFlow:突破归一化流限制
归一化流因结构性约束长期落后于扩散模型。BiFlow通过放弃逆向过程的精确可逆性,采用并行Transformer架构,实现单步生成,将ImageNet 256×256的FID降至2.39,同时加速700倍。隐藏层对齐机制确保前向与逆向过程在表示空间中一致,解决了两者不匹配的问题。
iMF:快进生成,无需蒸馏
均值流(MeanFlow)引入“均值速度场”概念,但初代存在训练不稳定等问题。iMF通过三项改进(瞬时速度损失、灵活CFG引导、高效条件作用)大幅提升性能,在ImageNet 256×256上实现FID 1.72,首次超越所有蒸馏方法。
像素监督的反击:Pixo
自监督学习领域普遍认为潜空间优于像素空间。Pixo通过大规模数据和优化策略证明,像素监督在深度估计、语义分割等任务上与潜空间方法正面竞争,各有优劣。
结语
何恺明团队的研究表明,扩散模型并非终点,而是更高效范式的过渡阶段。流匹配、JiT、VARC等成果以返璞归真的方式重构生成与理解框架,为2026年的生成式AI领域指明了新方向。
-
2026-05-12 21:34:37 -
2026-05-12 20:31:27 -
2026-05-12 18:28:13