500美元刷新SOTA！训练成本砍到1/200，华人团队重构视频生成范式

2025-07-17 15:24:48

跨界思维

发布在

科普

阅读：356

500美元刷新SOTA！训练成本砍到1/200，华人团队重构视频生成范式

你可能听说过OpenAI的Sora，这款耗费数百万视频和千万美元训练的AI视频模型。但你能想象，仅用3860段视频和不到500美元成本，也能在关键任务上达到顶级性能（SOTA）吗？

香港城市大学等团队联合发布了全新图像-视频生成模型——Pusa V1.0（菩萨1.0）。它在基础模型Wan2.1-T2V-14B的基础上，引入了向量时间步适应（Vectorized Timestep Adaptation, VTA）机制，通过微调实现了图像转视频（I2V）领域的SOTA，并解锁了多种零样本任务能力。例如，输入图片生成攀岩者在小行星上的动态视频，或根据起始帧让存钱罐小猪在大溪地冲浪。

Pusa的核心创新在于VTA机制。传统视频扩散模型对所有帧采用同步降噪，导致画面僵硬。而VTA为每一帧引入独立的时间编码，允许模型精细控制每帧的去噪进度，使生成视频更加自然连贯。此外，Pusa采用帧感知流匹配（FAFM）目标函数，在保持起始图像约束的同时，模拟帧在时间轴上的独立演化速度。

相比其他微调方法，Pusa仅更新了与时间相关的模块，参数更新数比同类模型少10倍以上，同时保留了基础模型的先验知识。这使得Pusa以极低成本实现了高效的多任务视频生成，包括文字转视频、视频扩展、图像到视频等。

Pusa V1.0已在8张80GB GPU上完成微调，代码和模型已开源。研究团队表示，选择“菩萨”这一名称，意在象征模型如千手观音般灵活多样，能够快速进入每个创作者的电脑，真正服务于大众。

参考链接：
[1] 项目主页：https://yaofang-liu.github.io/Pusa_Web/
[2] HuggingFace: https://huggingface.co/RaphaelLiu/PusaV1
[3] arXiv论文：https://arxiv.org/abs/2410.03160

原文链接

本文链接：https://kx.umi6.com/article/21921.html

转载请注明文章出处

Pusa V1.0