标题:计算所 x 上交大论文:双人数据生成多人动画丨CVPR 2026
正文:
在视觉生成领域,研究重点正从“能否生成内容”转向“能否生成可控且结构正确的内容”。在人物动画生成任务中,研究人员希望模型不仅能生成逼真画面,还能通过输入人物图像与动作姿态序列,自动生成连续动画。然而,现有方法多集中于单人场景,扩展到多人时复杂度显著增加。
多人动画生成需保持每个人物外观稳定、动作对应准确,并处理人物间的空间交互。若无法区分不同人物,容易出现身份混淆、动作错位或空间关系不合理等问题。为此,中国科学院计算技术研究所与上海交通大学的研究团队提出了一种新框架——MultiAnimate,通过引入身份标识机制和基于人物掩码的空间关系建模,解决了这些挑战。
值得注意的是,该方法仅用双人数据训练,却能在推理阶段生成三人甚至更多人的动画,为多人视频生成提供了扩展性解决方案。
从双人到多人:模型能力验证
实验表明,MultiAnimate 在多人动画生成任务中优于现有方法,具有强扩展性和泛化能力。在 Swing Dance 数据集(包含复杂双人舞蹈互动)上,MultiAnimate 生成的视频更真实,动作与姿态一致,帧间连续性更好,人物身份保持稳定。相比之下,其他方法易出现身份混乱、遮挡错误或背景模糊等问题。
在 Gen-dataset 数据集(含两人或三人场景)上,尽管未专门训练,模型仍能生成高质量视频,动作控制准确,时间维度连续性良好。此外,在社交媒体视频测试中(包括三至七人舞蹈),模型展现出强大的泛化能力,即使仅用双人数据训练,也能正确生成多人动画并保持身份一致。
MultiAnimate 的构建与验证路径
研究使用三类数据:Swing Dance 数据集(双人舞蹈)、Gen-dataset 数据集(自动生成的两人或三人场景)和 TikTok 舞蹈视频(用于测试)。预处理包括姿态提取和人物掩码生成,帮助模型理解动作和区分人物。
训练分两阶段:第一阶段用 Swing Dance 数据集学习双人互动;第二阶段加入 Gen-dataset 提升场景适应能力。对比实验显示,MultiAnimate 在视频质量、动作准确性等方面均优于现有方法。消融实验验证了人物掩码和身份标识模块的重要性。
突破关键瓶颈
研究意义体现在三方面:一是通过身份标识和空间关系建模提升多人动画生成稳定性;二是仅用双人数据即可生成多人动画,突破传统方法局限;三是高效利用少量数据,降低实际应用成本。
科研团队
论文通讯作者安竹林为中国科学院计算所副研究员,研究方向为神经网络加速与计算机视觉。另一位通讯作者刘松华为上海交大助理教授,专注于视觉生成与深度学习效率提升。
参考链接:MultiAnimate | 刘松华主页
-
2026-03-19 01:10:45 -
2026-03-18 23:04:25 -
2026-03-18 23:03:20