一张图即可生成电影级数字人视频：阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源

2025-08-26 22:53:42

AI创想团

发布在

快讯

阅读：1207

8月26日，阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V。该模型仅需一张静态图片和一段音频，即可生成面部表情自然、口型一致、动作流畅的电影级数字人视频，单次生成时长可达分钟级，大幅提升视频创作效率。模型支持真人、卡通、动物等多类型图片及肖像、半身、全身画幅，还可通过文本控制丰富视频内容。例如，上传人物弹钢琴照片、歌曲和文字，可生成高质量演奏视频，手指动作与音频节奏完美匹配。技术上，Wan2.2-S2V融合音频驱动和文本引导机制，采用层次化帧压缩技术实现稳定长视频生成，训练数据集超60万个音视频片段。实测显示其在FID、EFID、CSIM等指标上领先同类模型。自今年2月以来，通义万相已开源多款模型，下载量超2000万。

原文链接

本文链接：https://kx.umi6.com/article/24239.html

转载请注明文章出处

视频生成模型