扩散 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

扩散模型成最快深度思考！告别自回归每秒1009个tokens，英伟达微软都投了

2026年2月，硅谷初创公司Inception Labs发布扩散模型Mercury 2，成为全球生成速度最快的深度学习模型。其在英伟达GPU上实现每秒1009个tokens的生成速度，比GPT-5 Mini和Claude-4.5 Haiku快5倍。Mercury 2采用并行优化机制，摒弃传统自回归逐字生成方式，通过整体编辑提升效率，延迟低至1.7秒，且性能优异，在GPQA、LCB、AIME等基准测试中表现突出。此外，其价格具有竞争力，输入和输出分别为每百万token 0.25美元和0.75美元。背后团队自2019年起研究扩散模型，核心成员包括斯坦福教授Stefano Ermon等。Mercury 2获英伟达、微软等机构投资支持，目前暂无开源计划，但API兼容OpenAI标准，可在线体验。

原文链接

Oasis

02-26 10:41:31

Mercury 2

扩散模型

自回归

分享至

打开微信扫一扫

内容投诉

生成图片

小众架构赢麻了！通过编辑功能让100B扩散模型飙出892 tokens/秒的速度！

2026年2月，蚂蚁集团发布LLaDA2.1扩散语言模型，实现892 tokens/秒的峰值速度，显著超越主流自回归模型。该模型采用双模式解码策略：极速模式适合高吞吐场景，质量模式保障高精度任务。通过可纠错编辑机制，模型先并行生成草稿再全局修正，解决了扩散模型的逻辑一致性问题。此外，团队首次在100B参数规模上成功应用强化学习，大幅提升指令遵循等任务表现。开源版本包括100B和16B两种规模，后者峰值速度超1500 tokens/秒，为轻量化部署提供支持。技术报告及代码已公开。

原文链接

量子思考者

02-11 10:10:31

可纠错编辑

扩散模型

自回归模型

分享至

打开微信扫一扫

内容投诉

生成图片

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

2026年2月，华为诺亚方舟实验室联合多所高校发布业界首个扩散语言模型Agent（DLLM Agent），在部分场景中执行效率提升8倍。研究显示，在相同框架、数据和交互预算下，DLLM Agent相比传统自回归模型（AR），端到端速度提升超30%，工具调用更少，规划能力更强。实验基于严格对照设计，避免框架和数据干扰，证明生成范式本身显著影响Agent行为模式。DLLM通过并行提取关键信息与逐步细化任务结构，展现出‘先全局后细节’的优势，尤其在复杂任务中路径更短、收敛更快。尽管DLLM对结构化输出较敏感，但通过针对性训练策略可优化性能。这一成果为Agent设计提供了全新视角，标志着扩散模型在智能体领域的突破性应用。

原文链接

AI奇点纪元

02-10 16:22:31

Agent

华为

扩散语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

何恺明带大二本科生颠覆扩散图像生成：扔掉多步采样和潜空间，一步像素直出

正文：2026年1月，何恺明团队联合MIT本科生提出全新图像生成方法Pixel Mean Flow（pMF），颠覆传统扩散模型。该方法抛弃多步采样和潜空间编码，直接在像素空间一步生成高质量图像，在ImageNet 256×256分辨率上达到2.22 FID，512×512分辨率上为2.48 FID，创下单步无潜空间模型最佳成绩。pMF核心设计通过网络直接输出像素级去噪图像，并以速度场计算损失，基于流形假设简化复杂任务。实验表明，其计算效率远超StyleGAN-XL等方法，且避免了VAE解码器的额外开销。团队希望推动端到端生成建模研究。

原文链接

LunarCoder

02-02 16:48:05

Pixel Mean Flow

何恺明

扩散模型

分享至

打开微信扫一扫

内容投诉

生成图片

ViT一作盛赞：这个中国开源“PS模型”强过Nano Banana

正文：2025年12月，ViT核心作者、Meta超级智能团队成员Lucas Beyer盛赞中国开源模型Qwen-Image-Layered，称其图像生成能力远超Nano Banana和ChatGPT。该模型基于扩散技术，可将图片分解为多个含透明度信息的RGBA图层，实现精细化编辑，如局部修改、背景替换、主体更换等。相比传统方法，Qwen-Image-Layered避免了递归错误，擅长处理复杂遮挡、半透明及文字场景。模型支持可变层数拆解，满足多样化需求，并已在GitHub开源。网友评价其效果类似开源版Photoshop，令人惊叹。

原文链接

灵感Phoenix

12-29 13:21:05

Qwen-Image-Layered

扩散模型

拆图

分享至

打开微信扫一扫

内容投诉

生成图片

蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0

12月12日，蚂蚁技术研究院发布LLaDA2.0离散扩散大语言模型，称其为“业内首个100B扩散语言模型”。该系列包含16B和100B两个版本，在代码、数学及智能体任务中性能超越同级自回归（AR）模型。通过创新的Warmup-Stable-Decay持续预训练策略，LLaDA2.0继承现有AR模型知识，降低训练成本，同时结合置信度感知并行训练等技术，实现比AR模型快2.1倍的推理加速。评估显示，该模型在结构化生成任务（如代码）上表现突出，其他领域与开源AR模型持平。目前，模型权重及相关代码已在Huggingface平台开源。

原文链接

AI奇点纪元

12-12 15:57:42

LLaDA2.0

开源

扩散语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

在2026智能未来大会上，蚂蚁集团资深技术专家赵俊博分享了扩散语言模型（dLLM）的最新进展。他指出，与主流自回归模型不同，扩散模型可直接修改和控制token，无需重新生成整段内容，从而提升生成速度并降低计算成本。其团队开源了千亿参数规模的LLaDA 2.0模型，这是扩散语言模型领域的关键里程碑。赵俊博还提到，该领域仍处于早期阶段，但发展迅速，已吸引谷歌、字节等巨头布局。此外，扩散模型在代码生成和文学创作任务中表现出独特优势，推理引擎dInfer也已发布。团队将继续探索dLLM的Scaling Law，推动训推生态发展。

原文链接

代码编织者Nexus

12-12 12:47:17

LLaDA

扩散模型

自回归模型

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达发布 TiDAR：单步生成多个 Token，AI 吞吐量提升近 600%

12月2日，英伟达发布新型AI解码方法TiDAR，融合自回归与扩散模型机制，利用GPU‘空闲槽位’加速文本生成。该技术通过单步生成多个Token，大幅提升AI吞吐量，最高可达近600%。TiDAR创新性训练单一Transformer模型同时执行自回归预测和扩散并行起草，解决了早期扩散解码器的部署难题。测试显示，在HumanEval和GSM8K基准中，其准确率与基准模型持平甚至更高，15亿参数版本吞吐量提升4.71倍，80亿参数版本达5.91倍。但目前测试仅限于中小模型，未来需验证大规模模型上的实用性。

原文链接

智能维度跳跃

12-02 15:19:50

TiDAR

扩散

自回归

分享至

打开微信扫一扫

内容投诉

生成图片

何恺明团队新作：扩散模型可能被用错了

正文：2025年11月，何恺明团队发布新论文，提出扩散模型可能被用错的观点。研究指出，当前主流扩散模型在训练时多预测噪声或速度场，而非直接生成干净图像，这与模型本质相悖。基于流形假设，团队认为神经网络更适合学习将噪声投影回低维流形的干净数据，而非拟合高维噪声。为此，他们提出极简架构JiT（Just image Transformers），完全从像素出发，直接预测图像块，无需VAE、Tokenizer等复杂组件。实验表明，JiT在高维空间下表现稳健，在ImageNet 256×256和512×512生成任务中分别取得1.82和1.78的SOTA级FID分数。论文一作为黎天鸿，清华姚班本科毕业，现为何恺明组博士后。

原文链接

数字墨迹

11-20 11:15:51

JiT

何恺明

扩散模型

分享至

打开微信扫一扫

内容投诉

生成图片

VAE再被补刀！清华快手SVG扩散模型亮相，训练提效6200%，生成提速3500%

2025年10月，清华大学与快手可灵团队联合发布了一种名为SVG的无VAE潜在扩散模型。该模型通过语义+细节双分支和分布对齐技术，在训练效率上提升62倍，生成速度提高35倍，解决了传统VAE因语义纠缠导致的生成效率低、多任务适配性差等问题。SVG基于DINOv3构建语义特征，并引入轻量级残差编码器补充高频细节，实验显示其在ImageNet数据集上的生成质量（FID值1.92）接近顶级模型水平，同时具备图像分类、语义分割等多任务通用能力。团队由清华博士后郑文钊领衔，相关论文已发布于arXiv，代码开源在GitHub。

原文链接