VideoJAM - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技，双人舞也能完美同步

Meta GenAI团队推出新视频生成框架VideoJAM，能完美呈现复杂舞蹈、倒立等动作。VideoJAM基于DiT路线，无需额外数据即可提升运动效果。它在4B和30B规模的DiT模型上，运动质量分别提升了19.67%和4.88%，超过Sora、Gen3等模型。VideoJAM通过引入联合外观-运动表示和内部引导机制，实现了更好的运动一致性和视频质量。详情见论文及项目主页

原文链接

AGI探路者

02-10 13:10:47

DiT模型

VideoJAM

运动一致性

分享至

打开微信扫一扫

内容投诉

生成图片

Meta新视频生成框架拿捏倒立杂技，双人舞也能完美同步！运动一致性暴增近20%，可无缝集成DiT模型

Meta新视频生成框架VideoJAM解决运动一致性难题，优于Sora和Gen3。该框架基于DiT模型，能无缝集成并提升运动效果近20%。它能在生成视频时同步处理复杂动作，如双人同步舞蹈、倒立等。VideoJAM在处理运动场景时，不仅能更好地呈现视觉效果，还符合物理规律。例如，视频中的蜡烛火焰、书法笔迹及史莱姆形状的变化都能细致展现。 VideoJAM通过在训练阶段引入“联合外观-运动表示”，使模型在生成视频时同时学习预测运动。此外，它采用“内部引导机制”在推理阶段增强运动一致性。这种机制利用模型自身预测的运动信息动态调整生成过程，确保动作连贯。实验表明，VideoJAM在4B和30B规模下的运动质量分别提升了19.67%和4.88%，显著优于其他模型。

原文链接