自回归 - AI优秘圈

扩散模型成最快深度思考！告别自回归每秒1009个tokens，英伟达微软都投了

2026年2月，硅谷初创公司Inception Labs发布扩散模型Mercury 2，成为全球生成速度最快的深度学习模型。其在英伟达GPU上实现每秒1009个tokens的生成速度，比GPT-5 Mini和Claude-4.5 Haiku快5倍。Mercury 2采用并行优化机制，摒弃传统自回归逐字生成方式，通过整体编辑提升效率，延迟低至1.7秒，且性能优异，在GPQA、LCB、AIME等基准测试中表现突出。此外，其价格具有竞争力，输入和输出分别为每百万token 0.25美元和0.75美元。背后团队自2019年起研究扩散模型，核心成员包括斯坦福教授Stefano Ermon等。Mercury 2获英伟达、微软等机构投资支持，目前暂无开源计划，但API兼容OpenAI标准，可在线体验。

原文链接

Oasis

02-26 10:41:31

Mercury 2

扩散模型

自回归

分享至

打开微信扫一扫

内容投诉

生成图片

小众架构赢麻了！通过编辑功能让100B扩散模型飙出892 tokens/秒的速度！

2026年2月，蚂蚁集团发布LLaDA2.1扩散语言模型，实现892 tokens/秒的峰值速度，显著超越主流自回归模型。该模型采用双模式解码策略：极速模式适合高吞吐场景，质量模式保障高精度任务。通过可纠错编辑机制，模型先并行生成草稿再全局修正，解决了扩散模型的逻辑一致性问题。此外，团队首次在100B参数规模上成功应用强化学习，大幅提升指令遵循等任务表现。开源版本包括100B和16B两种规模，后者峰值速度超1500 tokens/秒，为轻量化部署提供支持。技术报告及代码已公开。

原文链接

量子思考者

02-11 10:10:31

可纠错编辑

扩散模型

自回归模型

分享至

打开微信扫一扫

内容投诉

生成图片

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

在2026智能未来大会上，蚂蚁集团资深技术专家赵俊博分享了扩散语言模型（dLLM）的最新进展。他指出，与主流自回归模型不同，扩散模型可直接修改和控制token，无需重新生成整段内容，从而提升生成速度并降低计算成本。其团队开源了千亿参数规模的LLaDA 2.0模型，这是扩散语言模型领域的关键里程碑。赵俊博还提到，该领域仍处于早期阶段，但发展迅速，已吸引谷歌、字节等巨头布局。此外，扩散模型在代码生成和文学创作任务中表现出独特优势，推理引擎dInfer也已发布。团队将继续探索dLLM的Scaling Law，推动训推生态发展。

原文链接

代码编织者Nexus

12-12 12:47:17

LLaDA

扩散模型

自回归模型

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达发布 TiDAR：单步生成多个 Token，AI 吞吐量提升近 600%

12月2日，英伟达发布新型AI解码方法TiDAR，融合自回归与扩散模型机制，利用GPU‘空闲槽位’加速文本生成。该技术通过单步生成多个Token，大幅提升AI吞吐量，最高可达近600%。TiDAR创新性训练单一Transformer模型同时执行自回归预测和扩散并行起草，解决了早期扩散解码器的部署难题。测试显示，在HumanEval和GSM8K基准中，其准确率与基准模型持平甚至更高，15亿参数版本吞吐量提升4.71倍，80亿参数版本达5.91倍。但目前测试仅限于中小模型，未来需验证大规模模型上的实用性。

原文链接

智能维度跳跃

12-02 15:19:50

TiDAR

扩散

自回归

分享至

打开微信扫一扫

内容投诉

生成图片

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频 | NeurIPS’25 Oral

2025年11月，字节跳动商业化技术团队发布论文《InfinityStar》，提出一种基于自回归的视频生成方法，成功入围NeurIPS’25 Oral。该方法在VBench基准上首次超越扩散模型，单GPU一分钟内可生成5秒720p视频，效率比主流DiT（Diffusion Transformer）快一个数量级。InfinityStar采用时空金字塔建模架构，结合离散自回归和粗到精预测机制，大幅减少生成步骤，同时支持文生图、文生视频、图生视频及交互式长视频生成等多任务处理。实验显示，其在GenEval、DPG及VBench等基准测试中表现优异，尤其在指令遵循和视频流畅性方面超越HunyuanVideo等基于DiT的方法。论文、代码及体验地址已公开，可通过Discord社区申请试用。

原文链接

DreamCoder

11-14 13:59:52

InfinityStar

自回归模型

视频生成

分享至

打开微信扫一扫

内容投诉

生成图片

冲破 AGI 迷雾，蚂蚁看到了一个新路标

2025年9月，蚂蚁集团在上海外滩大会发布基于扩散理论的新范式模型LLaDA-MoE，总参数量7B，激活参数1.4B，验证了工业级大规模训练的可行性。该模型由蓝振忠和李崇轩团队联合开发，克服了自回归模型的单向建模缺陷，具备并行解码、双向建模及错误修正能力。蚂蚁通过开源基础模型版和指令微调版，推动扩散语言模型（dLLM）领域的社区协作，并计划联合学界探索AGI新突破。这一成果为语言模型研究开辟新路径，标志着国内团队在dLLM规模化扩展上迈出重要一步。

原文链接

虚拟织梦者

09-29 11:08:37

AGI

扩散模型

自回归范式

分享至

打开微信扫一扫

内容投诉

生成图片

B站开源IndexTTS-2.0：突破自回归TTS时长与情感控制瓶颈

B站开源IndexTTS-2.0：突破自回归TTS时长与情感控制瓶颈近日，哔哩哔哩（B站）Index团队宣布开源其自主研发的IndexTTS-2.0系统。这一情感可控、时长可调的自回归零样本文本转语音（TTS）技术，被视为零样本TTS迈向实用化的重要里程碑。在语音合成领域，精准的时长控制和自然的...

原文链接

AI幻想空间站

09-11 10:52:46

IndexTTS-2.0

情感控制

自回归TTS

分享至

打开微信扫一扫

内容投诉

生成图片

华人团队终结Token危机：扩散模型数据潜力超自回归三倍

华人团队突破Token限制：扩散模型数据效率达自回归三倍 Token危机或将成为历史。最新研究表明，在有限Token条件下，扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型，仅用1B Tokens训练480个周期，便在HellaSwag和MMLU基准测试中分别取得56%和3...

原文链接

WisdomTrail

08-13 17:38:29

扩散模型

数据潜力

自回归模型

分享至

打开微信扫一扫

内容投诉

生成图片

每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率

标题：每秒生成超30帧视频，支持实时交互！自回归视频生成新框架刷新生成效率在A100上用310M模型，实现每秒超30帧自回归视频生成，同时保持高质量！最近，微软研究院与北大联合发布的Next-Frame Diffusion (NFD)框架，通过帧内并行采样和帧间自回归方式，大幅提升了视频生成效率，...

原文链接

Oasis

06-12 14:32:49

NFD

自回归模型

视频生成

分享至

打开微信扫一扫

内容投诉

生成图片

Meta Token-Shuffle 登场：自回归模型突破瓶颈，可 AI 生成 2048×2048 分辨率图像

4月25日，Meta AI推出Token-Shuffle技术，解决了自回归模型在高分辨率图像生成上的瓶颈问题。传统AR模型因高分辨率图像需大量token，导致计算成本激增，仅能处理低中分辨率图像。Token-Shuffle通过合并相邻视觉token，大幅降低计算量，使模型可生成2048×2048分辨率图像，同时保持视觉质量。该方法无需修改Transformer架构或额外预训练，兼容性强。实验显示，基于2.7B参数LLaMA模型的Token-Shuffle在GenAI-Bench测试中VQAScore达0.77，超越LlamaGen和扩散模型LDM。尽管逻辑一致性稍逊于扩散模型，但在文本对齐和图像质量上表现更优。

原文链接

星际Code流浪者

04-26 14:49:30

Token-Shuffle

自回归模型

高分辨率图像

分享至

打开微信扫一扫

内容投诉

生成图片