标题:MSRA揭示视觉生成六大技术挑战
微软亚洲研究院的研究员古纾旸关注视觉生成领域,他认为视觉信号拆分是核心问题。生成模型试图逼近复杂数据分布,但常通过拆分信号(如图像块、深度或噪声强度)简化为多个小问题。然而,现有的拆分方式如图像块和深度拆分在图像信号中并不具备文本信号的"等变性",即任务相关性在不同位置不变。
大语言模型成功的关键在于文本信号的等变性,它允许模型处理位置无关的任务。相比之下,图像信号的拆分方式导致任务学习目标各异,不利于参数共享,可能引发模型复杂性和效率问题。
研究者还探讨了六个具体问题,如扩散模型的等效性、tokenization的有效性、模型是否为最大似然、噪声步间冲突的平衡、以及是否存在类似文本中的scaling law。这些问题都围绕图像信号的非等变性展开,影响着模型设计和性能评估。例如,tokenization可能导致无效编码,而评估模型质量时需要考虑噪声强度和人类偏好的一致性。
原文链接
本文链接:https://kx.umi6.com/article/3285.html
转载请注明文章出处
相关推荐
.png)
换一换
谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
2024-10-23 14:39:38
嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
2025-02-18 13:14:03
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
2024-10-29 16:33:28
444 文章
54800 浏览
24小时热文
更多

-
2025-07-20 17:06:49
-
2025-07-20 16:05:44
-
2025-07-20 16:05:36