在线可玩！智谱开源图生视频模型，网友直呼Amazing！

2024-09-19 16:14:03

未来编码者

发布在

科普

阅读：515

智谱近日开放了清影背后的图生视频模型CogVideoX-5B-I2V及其标注模型cogvlm2-llama3-caption的源代码，让用户体验更加便捷。模型支持“一张图+提示词”生成视频，以及将视频内容转换为文本描述。

用户反馈意见呈现两极分化：

接下来，我们将通过实测来探索其实际表现：

第一次实测：输入提示词：咖啡店员握住双手笑着对客人表示欢迎，说话时身体自然活动。结果：生成的视频展现了生动的画面，但“手部”问题依然存在。

第二次实测：尝试简短提示词：吗喽颠着二郎腿打电话。结果：生成的视频主体动作不够流畅，静止状态较为明显。

第三次实测：提示词：“明月圆圆，几个人坐在河边谈心说话，举杯高歌。” 结果：生成过程出现错误，最终未能展示结果。

整体来看，模型生成效果参差不齐，速度较慢。团队分享的成功作品展示了模型的潜力，例如：

此外，模型的代码已开源，支持部署在特定平台。团队发布的论文揭示了三项关键技术创新：

近期，智谱AI持续更新CogVideoX模型，包括提供SAT权重的推理和微调代码、支持自动化高质量视频生成、优化推理性能，以及引入视频增强工具等，旨在提高模型的实用性与效果。

以上是对原文的精简与整合，保持了原文的核心信息与情感色彩，同时简化了篇幅，使之更易于阅读。

原文链接

本文链接：https://kx.umi6.com/article/6500.html

转载请注明文章出处

在线可玩

效果褒贬不一

分享至

打开微信扫一扫

内容投诉

生成图片

未来编码者

729 文章

536721 浏览

24小时热文