1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

正文:
2025年至2026年,生成式AI领域最值得关注的方向之一是流匹配(Flow Matching)。这一方法用常微分方程路径替代扩散模型的随机微分方程路径,从而大幅提升生成效率。然而,从理论到工程落地仍需解决诸多技术难题。何恺明团队近期在CVPR上发表的五篇论文,为这一领域提供了多角度的突破性解答。

让“去噪”模型真正做一次去噪
JiT提出了一种返璞归真的思路:直接预测干净图像x,而非噪声ε。传统扩散模型因预测目标偏离自然图像流形,导致不稳定性和额外复杂性。JiT通过Vision Transformer大幅简化架构,并允许更大的patch尺寸(如16×16至64×64),显著提升效率。最终,该模型在ImageNet 512×512上实现了FID 1.78,且无需蒸馏或外部辅助。

视觉推理的新可能:VARC
VARC挑战了ARC任务长期依赖语言模型的假设,将其重新建模为图像到图像的翻译问题。仅用18M参数的ViT模型,VARC在ARC-1上达到单模型54.5%、集成60.4%的准确率,接近人类水平。其关键在于“画布”机制扩展token空间,以及测试时训练(TTT)快速学习规则的能力。这证明纯视觉方法在抽象推理任务上的潜力被低估。

BiFlow:突破归一化流限制
归一化流因结构性约束长期落后于扩散模型。BiFlow通过放弃逆向过程的精确可逆性,采用并行Transformer架构,实现单步生成,将ImageNet 256×256的FID降至2.39,同时加速700倍。隐藏层对齐机制确保前向与逆向过程在表示空间中一致,解决了两者不匹配的问题。

iMF:快进生成,无需蒸馏
均值流(MeanFlow)引入“均值速度场”概念,但初代存在训练不稳定等问题。iMF通过三项改进(瞬时速度损失、灵活CFG引导、高效条件作用)大幅提升性能,在ImageNet 256×256上实现FID 1.72,首次超越所有蒸馏方法。

像素监督的反击:Pixo
自监督学习领域普遍认为潜空间优于像素空间。Pixo通过大规模数据和优化策略证明,像素监督在深度估计、语义分割等任务上与潜空间方法正面竞争,各有优劣。

结语
何恺明团队的研究表明,扩散模型并非终点,而是更高效范式的过渡阶段。流匹配、JiT、VARC等成果以返璞归真的方式重构生成与理解框架,为2026年的生成式AI领域指明了新方向。

原文链接
本文链接:https://kx.umi6.com/article/35725.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
河南首个虚拟电厂AI核心平台上线
2026-05-11 07:55:45
中信证券:纳入算力直连供能选项 氢能应用场景再突破
2026-05-12 09:01:22
赢RTX 50显卡套装!七彩虹iGame AI产品视频创作大赛开启
2026-05-12 18:24:53
谷歌称首次发现利用AI开发“零日漏洞”攻击工具
2026-05-12 15:20:56
CVPR 2026 3D 视觉前沿梳理:模型正在学会理解、生成和构建世界
2026-05-12 16:21:03
机构:预估2030年Micro LED CPO光收发模块产值达8.48亿美元
2026-05-11 15:16:16
浙大推出让AI会「导演」的角色扮演框架!四通道消息沉浸式交互
2026-05-11 01:39:00
月之暗面Kimi创始人兼首席执行官:让中国大模型成为全球创新的基座
2026-05-11 07:54:39
像素绽放PixelBloom 完成C轮融资:做全球AI视觉表达平台,更做能交方案的AI办公Agent
2026-05-11 16:16:44
广州:开展人工智能百模培育行动
2026-05-11 16:22:32
2050学习节「AGI 4 Science」专场:17位青年学者「挤」在3小时里,都讲了些什么?
2026-05-11 17:21:47
软银计划为人工智能数据中心生产大规模储能电池
2026-05-11 12:06:08
中金:相比光模块等,云厂商和芯片环节估值仍处于较低分位
2026-05-11 09:01:23
24小时热文
更多
扫一扫体验小程序