腾讯混元于3月6日发布并开源图生视频模型,该模型能将图片转化为5秒短视频,并自动添加背景音效。用户上传图片并描述运动和镜头调度后,模型即可生成所需视频。此外,上传人物图片并输入文本或音频,可实现“对口型”效果,支持生成跳舞视频。该模型适用于多种角色和场景,参数量为130亿,支持开发者下载并基于LoRA训练衍生模型。开源内容包括权重、推理代码和训练代码。该模型具备超写实画质、流畅动作演绎等特性,已在Github和HuggingFace社区开放。
原文链接
本文链接:https://kx.umi6.com/article/14920.html
转载请注明文章出处
相关推荐
.png)
换一换
腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
2025-05-16 17:13:07
32B 稠密模型推理能力超越 R1?秘密 AI 团队发布推理小模型 AM-Thinking-v1
2025-05-16 14:53:48
杭州“六小龙”开源新模型SpatialLM,登HuggingFace趋势榜第二位
2025-03-28 11:42:03
461 文章
65806 浏览
24小时热文
更多

-
2025-07-19 17:56:25
-
2025-07-19 17:55:01
-
2025-07-19 16:54:40