
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Meta GenAI团队推出新视频生成框架VideoJAM,能完美呈现复杂舞蹈、倒立等动作。VideoJAM基于DiT路线,无需额外数据即可提升运动效果。它在4B和30B规模的DiT模型上,运动质量分别提升了19.67%和4.88%,超过Sora、Gen3等模型。VideoJAM通过引入联合外观-运动表示和内部引导机制,实现了更好的运动一致性和视频质量。详情见论文及项目主页
原文链接
Meta新视频生成框架VideoJAM解决运动一致性难题,优于Sora和Gen3。该框架基于DiT模型,能无缝集成并提升运动效果近20%。它能在生成视频时同步处理复杂动作,如双人同步舞蹈、倒立等。VideoJAM在处理运动场景时,不仅能更好地呈现视觉效果,还符合物理规律。例如,视频中的蜡烛火焰、书法笔迹及史莱姆形状的变化都能细致展现。
VideoJAM通过在训练阶段引入“联合外观-运动表示”,使模型在生成视频时同时学习预测运动。此外,它采用“内部引导机制”在推理阶段增强运动一致性。这种机制利用模型自身预测的运动信息动态调整生成过程,确保动作连贯。实验表明,VideoJAM在4B和30B规模下的运动质量分别提升了19.67%和4.88%,显著优于其他模型。
原文链接
加载更多

暂无内容