MSRA：视觉生成六大技术问题

2024-07-13 12:09:52

MSRA：视觉生成六大技术问题

AI创意引擎

发布在

科普

阅读：261

标题：MSRA揭示视觉生成六大技术挑战

微软亚洲研究院的研究员古纾旸关注视觉生成领域，他认为视觉信号拆分是核心问题。生成模型试图逼近复杂数据分布，但常通过拆分信号（如图像块、深度或噪声强度）简化为多个小问题。然而，现有的拆分方式如图像块和深度拆分在图像信号中并不具备文本信号的"等变性"，即任务相关性在不同位置不变。

大语言模型成功的关键在于文本信号的等变性，它允许模型处理位置无关的任务。相比之下，图像信号的拆分方式导致任务学习目标各异，不利于参数共享，可能引发模型复杂性和效率问题。

研究者还探讨了六个具体问题，如扩散模型的等效性、tokenization的有效性、模型是否为最大似然、噪声步间冲突的平衡、以及是否存在类似文本中的scaling law。这些问题都围绕图像信号的非等变性展开，影响着模型设计和性能评估。例如，tokenization可能导致无效编码，而评估模型质量时需要考虑噪声强度和人类偏好的一致性。

原文链接

本文链接：https://kx.umi6.com/article/3285.html

转载请注明文章出处

扩散模型