
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
在A100上用310M模型,实现每秒超30帧自回归视频生成,同时保持高质量!最近,微软研究院与北大联合发布的Next-Frame Diffusion (NFD)框架,通过帧内并行采样和帧间自回归方式,大幅提升了视频生成效率,...
原文链接
4月25日,Meta AI推出Token-Shuffle技术,解决了自回归模型在高分辨率图像生成上的瓶颈问题。传统AR模型因高分辨率图像需大量token,导致计算成本激增,仅能处理低中分辨率图像。Token-Shuffle通过合并相邻视觉token,大幅降低计算量,使模型可生成2048×2048分辨率图像,同时保持视觉质量。该方法无需修改Transformer架构或额外预训练,兼容性强。实验显示,基于2.7B参数LLaMA模型的Token-Shuffle在GenAI-Bench测试中VQAScore达0.77,超越LlamaGen和扩散模型LDM。尽管逻辑一致性稍逊于扩散模型,但在文本对齐和图像质量上表现更优。
原文链接
嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
用扩散模型替代自回归,大模型的逆诅咒有解了! 人大高瓴人工智能研究院、蚂蚁共同提出LLaDA(a Large Language Diffusion with mAsking)。LLaDA-8B在上下文学习方面与LLaMA...
原文链接
标题:AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒|Adobe&MIT新研究
AI生成视频,边生成边实时播放,再也不用等待了!
Adobe与MIT合作开发了自回归实时视频生成技术——CausVid。
这一技术类似于从下载整部电影转变为直接观看流媒体的过程。在生成首帧画面后,...
原文链接
谷歌DeepMind团队与麻省理工学院合作推出全新“Fluid”模型,颠覆了自回归模型不如扩散模型的共识。该模型在规模达105亿参数时,实现了最优的文生图效果。通常情况下,扩散模型(如DDPM)在图像生成方面表现更佳,而自回归模型(如GPT系列)则主要用于文本生成。Fluid模型通过使用连续tokens而非离散tokens,以及随机生成顺序而非固定顺序,显著提升了自回归模型的性能。实验表明,Fluid模型在重要基准测试中超越了Stable Diffusion 3扩散模型和谷歌之前的Parti自回归模型。例如,拥有200亿参数的Parti在MS-COCO上FID分数为7.23,而仅含3.69亿参数的Fluid模型达到了相同水平。此研究成果于10月22日由科技媒体The Decoder发布。
原文链接
香港大学和字节跳动的研究团队近日推出名为LlamaGen的自回归文生图模型,实现了超越扩散模型的图像生成效果。基于原始自回归架构,该模型在ImageNet测试中表现出色,尤其是在FID、IS、Precision和Recall等指标上。模型开源且已上线,提供了在线体验,显示出自回归模型在图像生成领域的竞争力。研究人员强调,LlamaGen的成就是由于优化的Image Tokenizer和Llama架构的扩展性,未来有潜力在更高分辨率和视频生成等领域发展。
原文链接
加载更多

暂无内容