音频驱动 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

一张图即可生成电影级数字人视频：阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源

8月26日，阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V。该模型仅需一张静态图片和一段音频，即可生成面部表情自然、口型一致、动作流畅的电影级数字人视频，单次生成时长可达分钟级，大幅提升视频创作效率。模型支持真人、卡通、动物等多类型图片及肖像、半身、全身画幅，还可通过文本控制丰富视频内容。例如，上传人物弹钢琴照片、歌曲和文字，可生成高质量演奏视频，手指动作与音频节奏完美匹配。技术上，Wan2.2-S2V融合音频驱动和文本引导机制，采用层次化帧压缩技术实现稳定长视频生成，训练数据集超60万个音视频片段。实测显示其在FID、EFID、CSIM等指标上领先同类模型。自今年2月以来，通义万相已开源多款模型，下载量超2000万。

原文链接

AI创想团

08-26 22:53:42

视频生成模型

通义万相

音频驱动

分享至

打开微信扫一扫

内容投诉

生成图片

字节AI版小李子一开口：黄风岭，八百里

Loopy，由字节与浙大共同研发的创新项目，凭借其生成真实感视频的能力而引发热议。只需提供一张图片或一段音频，Loopy就能创造一段流畅、自然的视频。该技术的潜力已获得广泛认可，用户纷纷赞叹其先进性。 Loopy的亮点在于其端到端的音频驱动视频生成模型设计。模型分为四个关键部分： Referenc...

原文链接