音频驱动 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

一张图即可生成电影级数字人视频：阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源

8月26日，阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V。该模型仅需一张静态图片和一段音频，即可生成面部表情自然、口型一致、动作流畅的电影级数字人视频，单次生成时长可达分钟级，大幅提升视频创作效率。模型支持真人、卡通、动物等多类型图片及肖像、半身、全身画幅，还可通过文本控制丰富视频内容。例如，上传人物弹钢琴照片、歌曲和文字，可生成高质量演奏视频，手指动作与音频节奏完美匹配。技术上，Wan2.2-S2V融合音频驱动和文本引导机制，采用层次化帧压缩技术实现稳定长视频生成，训练数据集超60万个音视频片段。实测显示其在FID、EFID、CSIM等指标上领先同类模型。自今年2月以来，通义万相已开源多款模型，下载量超2000万。

原文链接