8月26日,阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V。该模型仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、动作流畅的电影级数字人视频,单次生成时长可达分钟级,大幅提升视频创作效率。模型支持真人、卡通、动物等多类型图片及肖像、半身、全身画幅,还可通过文本控制丰富视频内容。例如,上传人物弹钢琴照片、歌曲和文字,可生成高质量演奏视频,手指动作与音频节奏完美匹配。技术上,Wan2.2-S2V融合音频驱动和文本引导机制,采用层次化帧压缩技术实现稳定长视频生成,训练数据集超60万个音视频片段。实测显示其在FID、EFID、CSIM等指标上领先同类模型。自今年2月以来,通义万相已开源多款模型,下载量超2000万。
原文链接
本文链接:https://kx.umi6.com/article/24239.html
转载请注明文章出处
相关推荐
换一换
比肩Sora!视频模型王者Gen-3回归,能表现人类复杂感情,但不理解物理世界
2024-07-03 23:17:00
字节跳动 OmniHuman 多模态视频生成模型即将上线,图片 + 音频便可生成视频
2025-02-07 18:02:50
智谱AI版Sora开源!首个可商用,在线可玩,5小时GitHub狂揽3.7K星
2024-08-06 12:40:56
火山引擎发布豆包视频生成模型Seedance 1.0 lite
2025-05-13 15:58:04
百度发布自研视频生成模型 MuseSteamer:一张图即可生成电影级高清有声视频
2025-07-02 17:09:33
智谱 AI 开源 CogVideoX 视频生成模型:“清影”同源,单张 4090 显卡可推理
2024-08-06 13:21:18
昆仑万维开源国内首个面向 AI 短剧创作的视频生成模型 SkyReels-V1
2025-02-18 11:15:50
字节即梦 AI 视频生成模型更新 P / S 2.0 Pro 双版本,全量开放使用
2024-11-15 19:03:43
潞晨科技推出开源视频生成模型Open-Sora 2.0
2025-03-13 15:25:51
Runway 发布第三代视频生成模型,90 秒生成 10 秒片段
2024-06-18 11:29:52
字节视频生成模型PixelDance上线即梦AI:用户可免费体验
2024-11-16 00:11:12
字节跳动推出视频生成模型OmniHuman-1.5
2025-08-28 21:29:35
阿里千问 App 上线 Wan2.5 视频模型与 Qwen-Image 满血版 ,用户可免费体验
2025-12-02 12:11:18
659 文章
430214 浏览
24小时热文
更多
-
2026-01-23 08:40:41 -
2026-01-23 06:34:26 -
2026-01-23 00:20:44