扩散模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

ViT一作盛赞：这个中国开源“PS模型”强过Nano Banana

正文：2025年12月，ViT核心作者、Meta超级智能团队成员Lucas Beyer盛赞中国开源模型Qwen-Image-Layered，称其图像生成能力远超Nano Banana和ChatGPT。该模型基于扩散技术，可将图片分解为多个含透明度信息的RGBA图层，实现精细化编辑，如局部修改、背景替换、主体更换等。相比传统方法，Qwen-Image-Layered避免了递归错误，擅长处理复杂遮挡、半透明及文字场景。模型支持可变层数拆解，满足多样化需求，并已在GitHub开源。网友评价其效果类似开源版Photoshop，令人惊叹。

原文链接

灵感Phoenix

12-29 13:21:05

Qwen-Image-Layered

扩散模型

拆图

分享至

打开微信扫一扫

内容投诉

生成图片

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

在2026智能未来大会上，蚂蚁集团资深技术专家赵俊博分享了扩散语言模型（dLLM）的最新进展。他指出，与主流自回归模型不同，扩散模型可直接修改和控制token，无需重新生成整段内容，从而提升生成速度并降低计算成本。其团队开源了千亿参数规模的LLaDA 2.0模型，这是扩散语言模型领域的关键里程碑。赵俊博还提到，该领域仍处于早期阶段，但发展迅速，已吸引谷歌、字节等巨头布局。此外，扩散模型在代码生成和文学创作任务中表现出独特优势，推理引擎dInfer也已发布。团队将继续探索dLLM的Scaling Law，推动训推生态发展。

原文链接

代码编织者Nexus

12-12 12:47:17

LLaDA

扩散模型

自回归模型

分享至

打开微信扫一扫

内容投诉

生成图片

何恺明团队新作：扩散模型可能被用错了

正文：2025年11月，何恺明团队发布新论文，提出扩散模型可能被用错的观点。研究指出，当前主流扩散模型在训练时多预测噪声或速度场，而非直接生成干净图像，这与模型本质相悖。基于流形假设，团队认为神经网络更适合学习将噪声投影回低维流形的干净数据，而非拟合高维噪声。为此，他们提出极简架构JiT（Just image Transformers），完全从像素出发，直接预测图像块，无需VAE、Tokenizer等复杂组件。实验表明，JiT在高维空间下表现稳健，在ImageNet 256×256和512×512生成任务中分别取得1.82和1.78的SOTA级FID分数。论文一作为黎天鸿，清华姚班本科毕业，现为何恺明组博士后。

原文链接

数字墨迹

11-20 11:15:51

JiT

何恺明

扩散模型

分享至

打开微信扫一扫

内容投诉

生成图片

VAE再被补刀！清华快手SVG扩散模型亮相，训练提效6200%，生成提速3500%

2025年10月，清华大学与快手可灵团队联合发布了一种名为SVG的无VAE潜在扩散模型。该模型通过语义+细节双分支和分布对齐技术，在训练效率上提升62倍，生成速度提高35倍，解决了传统VAE因语义纠缠导致的生成效率低、多任务适配性差等问题。SVG基于DINOv3构建语义特征，并引入轻量级残差编码器补充高频细节，实验显示其在ImageNet数据集上的生成质量（FID值1.92）接近顶级模型水平，同时具备图像分类、语义分割等多任务通用能力。团队由清华博士后郑文钊领衔，相关论文已发布于arXiv，代码开源在GitHub。

原文链接

WisdomTrail

10-28 15:54:58

SVG

VAE

扩散模型

分享至

打开微信扫一扫

内容投诉

生成图片

谢赛宁新作：VAE退役，RAE当立

正文：2025年10月，谢赛宁团队发布新研究，提出用RAE（表征自编码器）替代VAE（变分自动编码器）。RAE结合预训练表征编码器（如DINO、SigLIP、MAE）与轻量级解码器，提供高质量重建和语义丰富的潜空间，支持可扩展的变换器架构。相比VAE，RAE解决了过时骨干网络、信息压缩不足及表征能力弱等问题。实验显示，采用RAE的DiT模型在ImageNet上表现强劲，256×256分辨率下FID仅1.51，且收敛速度比基于VAE的方法快16倍。此外，宽DiT设计、噪声调度和噪声解码器等简单调整显著提升了扩散模型性能。研究论文已公开。

原文链接

小阳哥

10-14 17:20:36

RAE

VAE

扩散模型

分享至

打开微信扫一扫

内容投诉

生成图片

冲破 AGI 迷雾，蚂蚁看到了一个新路标

2025年9月，蚂蚁集团在上海外滩大会发布基于扩散理论的新范式模型LLaDA-MoE，总参数量7B，激活参数1.4B，验证了工业级大规模训练的可行性。该模型由蓝振忠和李崇轩团队联合开发，克服了自回归模型的单向建模缺陷，具备并行解码、双向建模及错误修正能力。蚂蚁通过开源基础模型版和指令微调版，推动扩散语言模型（dLLM）领域的社区协作，并计划联合学界探索AGI新突破。这一成果为语言模型研究开辟新路径，标志着国内团队在dLLM规模化扩展上迈出重要一步。

原文链接

虚拟织梦者

09-29 11:08:37

AGI

扩散模型

自回归范式

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI宋飏被Meta挖跑了！扩散模型崛起关键人物，加入MSL再会师清华校友赵晟佳

2025年9月，Meta成功从OpenAI挖走华人研究员宋飏（Yang Song），他加入Meta MSL团队并向清华校友赵晟佳汇报。宋飏是扩散模型崛起的关键人物之一，曾在OpenAI担任战略探索团队负责人，并在生成模型领域取得突破性成果，如一致性模型的开发与优化。他的研究显著提升了图像生成速度和质量，成为近年AI领域的明星成果。宋飏拥有16岁裸分考入清华的天才背景，后于斯坦福大学攻读博士并深耕生成模型技术。他曾参与NeurIPS 2019等重要研究，为扩散模型的发展奠定基础。此次跳槽引发业内震惊，多位OpenAI员工表示意外。Meta持续吸纳顶尖人才，强化其AI研发实力。

原文链接

DreamCoder

09-25 22:11:00

Meta

宋飏

扩散模型

分享至

打开微信扫一扫

内容投诉

生成图片

DiT突遭怒喷，谢赛宁淡定回应

2025年8月，扩散模型领域核心DiT遭网友质疑，称其数学、形式均错误，甚至怀疑其无Transformer。作者谢赛宁迅速回应，批评标题党行为并强调科学精神，指出评价需基于假设与实验。DiT融合Transformer与扩散模型，性能超越U-Net经典模型，广泛应用于图像视频生成。质疑者依据论文《TREAD》提出六点反驳，包括架构隐含特性及训练效率问题。谢赛宁否认Tread与“DiT是错的”有关，称其为正则化提升的结果，并推荐升级版Lightning DiT。他还总结团队改进方向，如内部表征学习方法REPA及相关技术优化，同时指出sd-vae是当前主要瓶颈。

原文链接

跨界思维

08-20 17:19:58

DiT

扩散模型

谢赛宁

分享至

打开微信扫一扫

内容投诉

生成图片

华人团队终结Token危机：扩散模型数据潜力超自回归三倍

华人团队突破Token限制：扩散模型数据效率达自回归三倍 Token危机或将成为历史。最新研究表明，在有限Token条件下，扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型，仅用1B Tokens训练480个周期，便在HellaSwag和MMLU基准测试中分别取得56%和3...

原文链接

WisdomTrail

08-13 17:38:29

扩散模型

数据潜力

自回归模型

分享至

打开微信扫一扫

内容投诉

生成图片

图灵奖得主加持，蒙特卡洛树搜索×扩散模型杀回规划赛道｜ICML 2025 Spotlight

标题：图灵奖得主加持，蒙特卡洛树搜索×扩散模型杀回规划赛道｜ICML 2025 Spotlight 一个简单的迷宫导航任务，却让许多模型“原形毕露”。Diffuser和Diffusion Forcing在测试中表现糟糕，通关率极低。而一种全新方法——蒙特卡洛树扩散（Monte Carlo Tre...

原文链接