1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

500美元刷新SOTA!训练成本砍到1/200,华人团队重构视频生成范式

你可能听说过OpenAI的Sora,这款耗费数百万视频和千万美元训练的AI视频模型。但你能想象,仅用3860段视频和不到500美元成本,也能在关键任务上达到顶级性能(SOTA)吗?

香港城市大学等团队联合发布了全新图像-视频生成模型——Pusa V1.0(菩萨1.0)。它在基础模型Wan2.1-T2V-14B的基础上,引入了向量时间步适应(Vectorized Timestep Adaptation, VTA)机制,通过微调实现了图像转视频(I2V)领域的SOTA,并解锁了多种零样本任务能力。例如,输入图片生成攀岩者在小行星上的动态视频,或根据起始帧让存钱罐小猪在大溪地冲浪。

Pusa的核心创新在于VTA机制。传统视频扩散模型对所有帧采用同步降噪,导致画面僵硬。而VTA为每一帧引入独立的时间编码,允许模型精细控制每帧的去噪进度,使生成视频更加自然连贯。此外,Pusa采用帧感知流匹配(FAFM)目标函数,在保持起始图像约束的同时,模拟帧在时间轴上的独立演化速度。

相比其他微调方法,Pusa仅更新了与时间相关的模块,参数更新数比同类模型少10倍以上,同时保留了基础模型的先验知识。这使得Pusa以极低成本实现了高效的多任务视频生成,包括文字转视频、视频扩展、图像到视频等。

Pusa V1.0已在8张80GB GPU上完成微调,代码和模型已开源。研究团队表示,选择“菩萨”这一名称,意在象征模型如千手观音般灵活多样,能够快速进入每个创作者的电脑,真正服务于大众。

参考链接:
[1] 项目主页:https://yaofang-liu.github.io/Pusa_Web/
[2] HuggingFace: https://huggingface.co/RaphaelLiu/PusaV1
[3] arXiv论文:https://arxiv.org/abs/2410.03160

原文链接
本文链接:https://kx.umi6.com/article/21921.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
30 秒让照片动起来,首个国产纯自研视频大模型 Vidu 上线
2024-08-01 18:28:17
多人有声视频一体化生成!用百度最新AI生成营销视频,现在1.4元/5秒
2025-08-22 11:43:56
阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频生成功能,支持无限长 1080P 视频的高效编解码
2025-01-10 11:16:50
视频生成无损提速:删除多余token,训练时间减少30%,帧率越高效果越好
2024-11-18 10:15:10
10秒极速出片!还有超多特效模版,国产视频模型又整新活了
2025-01-01 18:00:30
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模
2024-06-07 19:45:09
AI 视频新王全球爆火,威尔·斯密斯终于可以好好吃面(附大量实测演示)
2025-05-24 13:10:24
腾讯AI视频生成曝光!与Sora同提示词PK,效果如何?
2024-12-02 14:51:40
快手可灵 2.5 Turbo 模型上线,较上代模型便宜近 30%
2025-09-23 20:22:21
OpenAI Sora 2 更新上线:所有用户均能生成 15 秒视频,Pro 最长 25 秒
2025-10-16 15:54:40
谷歌 Veo 2 视频生成模型入驻 Gemini,用户可创建 8 秒 720p 视频
2025-04-16 08:56:41
OpenAI 拟将视频生成工具 Sora 整合进 ChatGPT,并推出更强大 Sora Turbo
2025-03-01 10:50:58
免训练加速DiT!Meta提出自适应缓存新方法,视频生成快2.6倍
2024-11-08 09:15:04
24小时热文
更多
扫一扫体验小程序