何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

2025-11-14 13:59:52

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频 | NeurIPS’25 Oral

DreamCoder

发布在

快讯

阅读：1219

2025年11月，字节跳动商业化技术团队发布论文《InfinityStar》，提出一种基于自回归的视频生成方法，成功入围NeurIPS’25 Oral。该方法在VBench基准上首次超越扩散模型，单GPU一分钟内可生成5秒720p视频，效率比主流DiT（Diffusion Transformer）快一个数量级。InfinityStar采用时空金字塔建模架构，结合离散自回归和粗到精预测机制，大幅减少生成步骤，同时支持文生图、文生视频、图生视频及交互式长视频生成等多任务处理。实验显示，其在GenEval、DPG及VBench等基准测试中表现优异，尤其在指令遵循和视频流畅性方面超越HunyuanVideo等基于DiT的方法。论文、代码及体验地址已公开，可通过Discord社区申请试用。

原文链接

本文链接：https://kx.umi6.com/article/28418.html

转载请注明文章出处

InfinityStar