1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

在线体验智谱开源的图生视频模型CogVideoX-5B-I2V,网友评价褒贬不一

智谱近日开放了清影背后的图生视频模型CogVideoX-5B-I2V及其标注模型cogvlm2-llama3-caption的源代码,让用户体验更加便捷。模型支持“一张图+提示词”生成视频,以及将视频内容转换为文本描述。

用户反馈意见呈现两极分化:

  • 一些用户对其惊叹不已,直呼“Amazing”。
  • 另一部分用户尝试后选择使用旧版本,并给予积极评价。

接下来,我们将通过实测来探索其实际表现:

第一次实测: 输入提示词:咖啡店员握住双手笑着对客人表示欢迎,说话时身体自然活动。 结果:生成的视频展现了生动的画面,但“手部”问题依然存在。

第二次实测: 尝试简短提示词:吗喽颠着二郎腿打电话。 结果:生成的视频主体动作不够流畅,静止状态较为明显。

第三次实测: 提示词:“明月圆圆,几个人坐在河边谈心说话,举杯高歌。” 结果:生成过程出现错误,最终未能展示结果。

整体来看,模型生成效果参差不齐,速度较慢。团队分享的成功作品展示了模型的潜力,例如:

  • 提示词:“当万花筒般的蝴蝶在花朵中翩翩起舞时,花园变得生机勃勃,它们精致的翅膀在下面的花瓣上投下阴影。”
  • 提示词:“一位穿着西装的宇航员,靴子上沾满了火星的红色尘埃,在第四颗行星的粉红色天空下,他伸出手与一个外星人握手”
  • 提示词:“湖岸边长满了柳树,细长的枝条在微风中轻轻摇曳。平静的湖面倒映着清澈的蓝天,几只优雅的天鹅在平静的水面上优雅地滑翔”

此外,模型的代码已开源,支持部署在特定平台。团队发布的论文揭示了三项关键技术创新:

  1. 高效三维变分自编码器结构,将原视频空间压缩至2%,显著降低了训练成本和难度。
  2. 专家Transformer,通过VAE编码压缩视频,使用T5进行文本输入编码,然后将二者合并处理。
  3. 数据处理,开发负面标签识别低质量视频,通过视频字幕数据生成高质量字幕,优化模型训练过程。

近期,智谱AI持续更新CogVideoX模型,包括提供SAT权重的推理和微调代码、支持自动化高质量视频生成、优化推理性能,以及引入视频增强工具等,旨在提高模型的实用性与效果。


以上是对原文的精简与整合,保持了原文的核心信息与情感色彩,同时简化了篇幅,使之更易于阅读。

原文链接
本文链接:https://kx.umi6.com/article/6500.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
利通电子等在上海成立昊利智算公司
2025-07-18 19:45:00
广东新增6款已完成登记的生成式人工智能服务
2025-07-17 19:31:51
美银证券将台积电目标价由260美元升至290美元
2025-07-18 15:40:47
24小时热文
更多
扫一扫体验小程序