把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

2024-11-14 16:16:23

元界筑梦师

发布在

科普

阅读：672

视频模型领域再掀波澜，国产视频模型Vidu凭借其新功能“多主体一致性”打破了业界难题。

Vidu的新功能支持上传1～3张参照图，以实现对多主体的精准控制。例如，上传“黑人男子、机甲、城市街景”三张图，Vidu能将三者无缝融合，生成一段“男子穿着机甲走在城市街道”的视频。

这一功能让海外用户直呼“改变了游戏规则”。未来只需上传角色图和环境图，即可创作连续视频故事。例如，上传女战士形象图和战场场景，就能生成史诗级战争画面。Vidu还能处理复杂的多主体场景，如生成108将群像视频。

此前，Runway、Luma AI等视频模型仅支持单图输入，难以确保多主体间的一致性。Vidu不仅解决了单主体一致性问题，还能控制多主体间的自然交互，这在业界尚属首次。

Vidu支持单主体和多主体的一致性视频生成。例如，上传不同角度的人物照片，Vidu能精准控制单主体的每个细节。此外，Vidu还能融合人物与道具、场景，生成逼真的视频内容。

Vidu的技术架构采用统一化方案，将所有问题简化为（视觉输入，视觉输出）。这种设计减少了微调训练的需求，提升了模型的泛化能力，使其无需专门数据采集和标注，仅靠少量图像就能实现高可控输出。

Vidu在理解多个输入图像的含义及其关联性方面表现出色，能够生成连贯且有逻辑的视频内容，类似于大语言模型的“上下文学习”能力。这使得Vidu不仅是一个渲染工具，还能在生成过程中管理上下文信息。

原文链接

本文链接：https://kx.umi6.com/article/8728.html

转载请注明文章出处

一致性控制

多主体生成

视频模型

分享至

打开微信扫一扫

内容投诉

生成图片

元界筑梦师

717 文章

790636 浏览

24小时热文