
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月26日,阿里开源多模态视频生成模型通义万相Wan2.2-S2V。该模型仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致的电影级数字人视频,单次生成时长可达分钟级。这一技术突破为内容创作提供了高效工具,展现了AI在视频生成领域的潜力。
原文链接
8月26日,阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V。该模型仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、动作流畅的电影级数字人视频,单次生成时长可达分钟级,大幅提升视频创作效率。模型支持真人、卡通、动物等多类型图片及肖像、半身、全身画幅,还可通过文本控制丰富视频内容。例如,上传人物弹钢琴照片、歌曲和文字,可生成高质量演奏视频,手指动作与音频节奏完美匹配。技术上,Wan2.2-S2V融合音频驱动和文本引导机制,采用层次化帧压缩技术实现稳定长视频生成,训练数据集超60万个音视频片段。实测显示其在FID、EFID、CSIM等指标上领先同类模型。自今年2月以来,通义万相已开源多款模型,下载量超2000万。
原文链接
8月11日,阿里通义发布Wan2.2-I2V-Flash模型,推理速度较Wan2.1提升12倍,价格为0.1元/秒。新模型在电影级视觉呈现、指令遵循能力、风格稳定性及动态效果上均有显著优化,并支持精准运镜和特效提示词直出。该模型已上线阿里云百炼平台,可通过API调用体验。此前7月28日,阿里开源通义万相Wan2.2系列,包括文生视频、图生视频及统一视频生成三款模型,均为业界首个使用MoE架构的视频生成模型,参数量达27B,激活参数14B,同时首创电影美学控制系统,光影与微表情等媲美专业水准。
原文链接
7月28日,阿里开源电影级视频生成模型通义万相2.2。该模型单次可生成5秒高清视频,包含文生视频、图生视频和统一视频生成三款模型。其中,文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型,总参数量27B,激活参数14B,由高噪声专家模型和低噪声专家模型组成,分别负责视频布局与细节优化,在同参数规模下节省约50%计算资源。这一发布展现了阿里在AI视频生成领域的技术突破。(记者 黄心怡)
原文链接
7月28日,阿里巴巴开源视频生成模型通义万相 Wan2.2,包括文生视频、图生视频和统一视频生成三款模型。其中,文生视频和图生视频模型首次采用MoE架构,总参数量27B,激活参数14B,并引入电影美学控制系统,光影、色彩等能力媲美专业电影水平。新模型支持复杂运动、人物交互等场景,计算资源消耗减少约50%。同时,开源的5B小尺寸统一模型可在消费级显卡上部署,数分钟生成5秒高清视频。开发者可通过GitHub、HuggingFace等平台获取代码,企业可在阿里云调用API,用户也可在官网或App体验。自今年2月起,通义万相系列模型下载量已超500万。
原文链接
5月14日,《科创板日报》报道,阿里巴巴正式开源通义万相Wan2.1-VACE,这是一款支持视频生成与编辑的全功能模型。该模型可实现文生视频、视频重绘、局部编辑、背景延展等多种操作,单一模型覆盖全系列基础生成与编辑能力。此次开源了1.3B和14B两个版本,其中1.3B版本适合消费级显卡运行。通义万相作为阿里云通义系列的一部分,最初于2023年7月7日上线,专注于AI绘画创作。在2024年9月19日的阿里云栖大会上,阿里发布了其视频生成大模型,能生成影视级高清视频并更懂中文表达。今年1月初,该模型升级至2.1版,性能全面提升,在复杂运动处理、物理规律还原、电影质感优化等方面取得显著进步。2月25日,阿里巴巴宣布全面开源此模型。
原文链接
4月17日,阿里通义万相宣布开源其自主研发的“首尾帧生视频模型”,这是业界首个百亿参数规模的开源首尾帧视频模型。该模型能够根据用户提供的首尾帧图片生成720p高清视频,并支持流畅过渡和自然动作生成。模型通过引入条件控制机制、优化训练策略及推理算法,在保持高精度的同时提高了生成效率。用户可通过官网免费体验或在GitHub、Hugging Face等平台下载模型进行二次开发。该技术可应用于特效变化、运镜控制等多种场景,例如生成四季交替或昼夜变化的延时摄影效果视频。开源地址已同步公布,包括Github、HuggingFace及魔搭社区。
原文链接
阿里将于今晚全面开源旗下视频生成模型万相2.1,该模型在视频生成和图像生成方面有显著提升。万相2.1首次实现了中文文字视频生成功能,并支持中英文一键生成艺术字及多种视频特效。该模型还支持复杂运镜,可还原真实世界的物理规律。此前,通义万相已支持文生视频、图生视频等多种功能。今晚开源值得关注。(2月25日)
原文链接
阿里旗下通义万相2.1版本于1月10日宣布升级,首次实现中文文字视频生成功能,支持无限长1080P视频的高效编解码。该版本提升了视频生成和图像生成两大能力,包括增强时空上下文建模能力和支持多种视频特效选项。此外,通义万相2.1还支持复杂运镜,能够还原真实世界的物理规律。新功能已在VBench榜单登顶。
原文链接
标题:今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了
正文:
“汉字”难关今日被AI视频生成攻克。我们先看效果:
视频地址:[链接]
AI不仅生成了“福”字,还能根据提示生成“量子位”古风视频。进一步挑战,AI成功渲染赛博朋克风格的城市夜景,大楼LED屏上出现“量子位”。
AI还生成了包...
原文链接
加载更多

暂无内容