何恺明团队论文全景扫描：一场关于「生成范式」的多角度突破

2026-05-12 15:17:35

何恺明团队论文全景扫描：一场关于「生成范式」的多角度突破 | CVPR 2026

阿达旻

发布在

科普

阅读：1613

标题：何恺明团队论文全景扫描：一场关于「生成范式」的多角度突破 | CVPR 2026

正文：
2025年至2026年，生成式AI领域最值得关注的方向之一是流匹配（Flow Matching）。这一方法用常微分方程路径替代扩散模型的随机微分方程路径，从而大幅提升生成效率。然而，从理论到工程落地仍需解决诸多技术难题。何恺明团队近期在CVPR上发表的五篇论文，为这一领域提供了多角度的突破性解答。

让“去噪”模型真正做一次去噪
JiT提出了一种返璞归真的思路：直接预测干净图像x，而非噪声ε。传统扩散模型因预测目标偏离自然图像流形，导致不稳定性和额外复杂性。JiT通过Vision Transformer大幅简化架构，并允许更大的patch尺寸（如16×16至64×64），显著提升效率。最终，该模型在ImageNet 512×512上实现了FID 1.78，且无需蒸馏或外部辅助。

视觉推理的新可能：VARC
VARC挑战了ARC任务长期依赖语言模型的假设，将其重新建模为图像到图像的翻译问题。仅用18M参数的ViT模型，VARC在ARC-1上达到单模型54.5%、集成60.4%的准确率，接近人类水平。其关键在于“画布”机制扩展token空间，以及测试时训练（TTT）快速学习规则的能力。这证明纯视觉方法在抽象推理任务上的潜力被低估。

BiFlow：突破归一化流限制
归一化流因结构性约束长期落后于扩散模型。BiFlow通过放弃逆向过程的精确可逆性，采用并行Transformer架构，实现单步生成，将ImageNet 256×256的FID降至2.39，同时加速700倍。隐藏层对齐机制确保前向与逆向过程在表示空间中一致，解决了两者不匹配的问题。

iMF：快进生成，无需蒸馏
均值流（MeanFlow）引入“均值速度场”概念，但初代存在训练不稳定等问题。iMF通过三项改进（瞬时速度损失、灵活CFG引导、高效条件作用）大幅提升性能，在ImageNet 256×256上实现FID 1.72，首次超越所有蒸馏方法。

像素监督的反击：Pixo
自监督学习领域普遍认为潜空间优于像素空间。Pixo通过大规模数据和优化策略证明，像素监督在深度估计、语义分割等任务上与潜空间方法正面竞争，各有优劣。

结语
何恺明团队的研究表明，扩散模型并非终点，而是更高效范式的过渡阶段。流匹配、JiT、VARC等成果以返璞归真的方式重构生成与理解框架，为2026年的生成式AI领域指明了新方向。

原文链接

本文链接：https://kx.umi6.com/article/35725.html

转载请注明文章出处

流匹配