1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:计算所 x 上交大论文:双人数据生成多人动画丨CVPR 2026

正文:
在视觉生成领域,研究重点正从“能否生成内容”转向“能否生成可控且结构正确的内容”。在人物动画生成任务中,研究人员希望模型不仅能生成逼真画面,还能通过输入人物图像与动作姿态序列,自动生成连续动画。然而,现有方法多集中于单人场景,扩展到多人时复杂度显著增加。

多人动画生成需保持每个人物外观稳定、动作对应准确,并处理人物间的空间交互。若无法区分不同人物,容易出现身份混淆、动作错位或空间关系不合理等问题。为此,中国科学院计算技术研究所与上海交通大学的研究团队提出了一种新框架——MultiAnimate,通过引入身份标识机制和基于人物掩码的空间关系建模,解决了这些挑战。

值得注意的是,该方法仅用双人数据训练,却能在推理阶段生成三人甚至更多人的动画,为多人视频生成提供了扩展性解决方案。

从双人到多人:模型能力验证
实验表明,MultiAnimate 在多人动画生成任务中优于现有方法,具有强扩展性和泛化能力。在 Swing Dance 数据集(包含复杂双人舞蹈互动)上,MultiAnimate 生成的视频更真实,动作与姿态一致,帧间连续性更好,人物身份保持稳定。相比之下,其他方法易出现身份混乱、遮挡错误或背景模糊等问题。

在 Gen-dataset 数据集(含两人或三人场景)上,尽管未专门训练,模型仍能生成高质量视频,动作控制准确,时间维度连续性良好。此外,在社交媒体视频测试中(包括三至七人舞蹈),模型展现出强大的泛化能力,即使仅用双人数据训练,也能正确生成多人动画并保持身份一致。

MultiAnimate 的构建与验证路径
研究使用三类数据:Swing Dance 数据集(双人舞蹈)、Gen-dataset 数据集(自动生成的两人或三人场景)和 TikTok 舞蹈视频(用于测试)。预处理包括姿态提取和人物掩码生成,帮助模型理解动作和区分人物。

训练分两阶段:第一阶段用 Swing Dance 数据集学习双人互动;第二阶段加入 Gen-dataset 提升场景适应能力。对比实验显示,MultiAnimate 在视频质量、动作准确性等方面均优于现有方法。消融实验验证了人物掩码和身份标识模块的重要性。

突破关键瓶颈
研究意义体现在三方面:一是通过身份标识和空间关系建模提升多人动画生成稳定性;二是仅用双人数据即可生成多人动画,突破传统方法局限;三是高效利用少量数据,降低实际应用成本。

科研团队
论文通讯作者安竹林为中国科学院计算所副研究员,研究方向为神经网络加速与计算机视觉。另一位通讯作者刘松华为上海交大助理教授,专注于视觉生成与深度学习效率提升。

参考链接:MultiAnimate | 刘松华主页

原文链接
本文链接:https://kx.umi6.com/article/33880.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
计算所 x 上交大论文:只用双人数据,也能生成多人动画丨CVPR 2026
2026-03-18 15:33:00
单图秒变3D!苹果发布LiTo大模型:AI高度还原多视角光影
2026-03-17 20:04:08
全行业都在忙着“吃虾”,MiniMax M2.7已经让虾自己拿起筷子了
2026-03-18 21:55:09
企业级靠谱龙虾升级,拒绝失控
2026-03-17 15:41:20
小牛电动举办2026科技新品发布会,开启“造AI好车”新十年
2026-03-18 11:03:59
月内公募机构调研超1200次 AI相关个股成焦点
2026-03-17 08:12:59
新一批15只硬科技主题基金集中获批 科技创新领域再迎资金活水
2026-03-17 20:04:57
全球AI需求激增刺激产品涨价 机构称算力需求仍有望进一步上行
2026-03-18 19:53:05
1月至2月新增48款生成式人工智能服务在国家网信办完成备案
2026-03-17 20:05:14
德国计划大幅提升AI算力
2026-03-18 14:23:07
腾讯控股2025年AI资本开支达792亿元
2026-03-18 19:49:47
北京市科委:支持领军企业联合高校院所共同解决国家重大需求 打造全球人工智能创新高地
2026-03-17 14:40:35
阿里云AI算力和存储产品最高涨价34%
2026-03-18 13:17:53
24小时热文
更多
扫一扫体验小程序