综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月2日,英伟达发布新型AI解码方法TiDAR,融合自回归与扩散模型机制,利用GPU‘空闲槽位’加速文本生成。该技术通过单步生成多个Token,大幅提升AI吞吐量,最高可达近600%。TiDAR创新性训练单一Transformer模型同时执行自回归预测和扩散并行起草,解决了早期扩散解码器的部署难题。测试显示,在HumanEval和GSM8K基准中,其准确率与基准模型持平甚至更高,15亿参数版本吞吐量提升4.71倍,80亿参数版本达5.91倍。但目前测试仅限于中小模型,未来需验证大规模模型上的实用性。
原文链接
2025年11月,字节跳动商业化技术团队发布论文《InfinityStar》,提出一种基于自回归的视频生成方法,成功入围NeurIPS’25 Oral。该方法在VBench基准上首次超越扩散模型,单GPU一分钟内可生成5秒720p视频,效率比主流DiT(Diffusion Transformer)快一个数量级。InfinityStar采用时空金字塔建模架构,结合离散自回归和粗到精预测机制,大幅减少生成步骤,同时支持文生图、文生视频、图生视频及交互式长视频生成等多任务处理。实验显示,其在GenEval、DPG及VBench等基准测试中表现优异,尤其在指令遵循和视频流畅性方面超越HunyuanVideo等基于DiT的方法。论文、代码及体验地址已公开,可通过Discord社区申请试用。
原文链接
2025年9月,蚂蚁集团在上海外滩大会发布基于扩散理论的新范式模型LLaDA-MoE,总参数量7B,激活参数1.4B,验证了工业级大规模训练的可行性。该模型由蓝振忠和李崇轩团队联合开发,克服了自回归模型的单向建模缺陷,具备并行解码、双向建模及错误修正能力。蚂蚁通过开源基础模型版和指令微调版,推动扩散语言模型(dLLM)领域的社区协作,并计划联合学界探索AGI新突破。这一成果为语言模型研究开辟新路径,标志着国内团队在dLLM规模化扩展上迈出重要一步。
原文链接
B站开源IndexTTS-2.0:突破自回归TTS时长与情感控制瓶颈
近日,哔哩哔哩(B站)Index团队宣布开源其自主研发的IndexTTS-2.0系统。这一情感可控、时长可调的自回归零样本文本转语音(TTS)技术,被视为零样本TTS迈向实用化的重要里程碑。
在语音合成领域,精准的时长控制和自然的...
原文链接
华人团队突破Token限制:扩散模型数据效率达自回归三倍
Token危机或将成为历史。最新研究表明,在有限Token条件下,扩散语言模型的数据潜力是自回归模型的三倍以上。一个参数规模为1B的扩散模型,仅用1B Tokens训练480个周期,便在HellaSwag和MMLU基准测试中分别取得56%和3...
原文链接
标题:每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
在A100上用310M模型,实现每秒超30帧自回归视频生成,同时保持高质量!最近,微软研究院与北大联合发布的Next-Frame Diffusion (NFD)框架,通过帧内并行采样和帧间自回归方式,大幅提升了视频生成效率,...
原文链接
4月25日,Meta AI推出Token-Shuffle技术,解决了自回归模型在高分辨率图像生成上的瓶颈问题。传统AR模型因高分辨率图像需大量token,导致计算成本激增,仅能处理低中分辨率图像。Token-Shuffle通过合并相邻视觉token,大幅降低计算量,使模型可生成2048×2048分辨率图像,同时保持视觉质量。该方法无需修改Transformer架构或额外预训练,兼容性强。实验显示,基于2.7B参数LLaMA模型的Token-Shuffle在GenAI-Bench测试中VQAScore达0.77,超越LlamaGen和扩散模型LDM。尽管逻辑一致性稍逊于扩散模型,但在文本对齐和图像质量上表现更优。
原文链接
《科创板日报》18日消息,小米大模型团队近日推出一种创新的图像生成方法——对角蛇形自回归图像生成方式(DAR)。该方法突破传统逐行生成模式,通过沿图像对角线方向,以灵活的‘蛇形’路径生成像素,提升生成效率与效果。目前,相关论文、训练代码及模型权重已公开发布。这一新技术展现出在图像生成领域的潜力,值得关注。
原文链接
标题:OpenAI的吉卜力:一场图像生成的范式革命?
想象一下,宫崎骏数十年心血的艺术风格,如今在GPT-4o手中变得“唾手可得”。用户上传照片或梗图,即可一键生成吉卜力风格的画面,效果逼真且风格统一,迅速引爆网络。OpenAI CEO Sam Altman透露,4o的图像生成功能上线仅一小时便吸引...
原文链接
标题:13.8倍吞吐提升!浙大上海AI Lab提出视觉生成新范式:从“下一个token”到“下一个邻域”
正文:
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
在图像/视频生成任务中,传统的“下一个token预测”方法正面临效率瓶颈。为此,浙...
原文链接
加载更多
暂无内容