1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

在线体验智谱开源的图生视频模型CogVideoX-5B-I2V,网友评价褒贬不一

智谱近日开放了清影背后的图生视频模型CogVideoX-5B-I2V及其标注模型cogvlm2-llama3-caption的源代码,让用户体验更加便捷。模型支持“一张图+提示词”生成视频,以及将视频内容转换为文本描述。

用户反馈意见呈现两极分化:

  • 一些用户对其惊叹不已,直呼“Amazing”。
  • 另一部分用户尝试后选择使用旧版本,并给予积极评价。

接下来,我们将通过实测来探索其实际表现:

第一次实测: 输入提示词:咖啡店员握住双手笑着对客人表示欢迎,说话时身体自然活动。 结果:生成的视频展现了生动的画面,但“手部”问题依然存在。

第二次实测: 尝试简短提示词:吗喽颠着二郎腿打电话。 结果:生成的视频主体动作不够流畅,静止状态较为明显。

第三次实测: 提示词:“明月圆圆,几个人坐在河边谈心说话,举杯高歌。” 结果:生成过程出现错误,最终未能展示结果。

整体来看,模型生成效果参差不齐,速度较慢。团队分享的成功作品展示了模型的潜力,例如:

  • 提示词:“当万花筒般的蝴蝶在花朵中翩翩起舞时,花园变得生机勃勃,它们精致的翅膀在下面的花瓣上投下阴影。”
  • 提示词:“一位穿着西装的宇航员,靴子上沾满了火星的红色尘埃,在第四颗行星的粉红色天空下,他伸出手与一个外星人握手”
  • 提示词:“湖岸边长满了柳树,细长的枝条在微风中轻轻摇曳。平静的湖面倒映着清澈的蓝天,几只优雅的天鹅在平静的水面上优雅地滑翔”

此外,模型的代码已开源,支持部署在特定平台。团队发布的论文揭示了三项关键技术创新:

  1. 高效三维变分自编码器结构,将原视频空间压缩至2%,显著降低了训练成本和难度。
  2. 专家Transformer,通过VAE编码压缩视频,使用T5进行文本输入编码,然后将二者合并处理。
  3. 数据处理,开发负面标签识别低质量视频,通过视频字幕数据生成高质量字幕,优化模型训练过程。

近期,智谱AI持续更新CogVideoX模型,包括提供SAT权重的推理和微调代码、支持自动化高质量视频生成、优化推理性能,以及引入视频增强工具等,旨在提高模型的实用性与效果。


以上是对原文的精简与整合,保持了原文的核心信息与情感色彩,同时简化了篇幅,使之更易于阅读。

原文链接
本文链接:https://kx.umi6.com/article/6500.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
在线可玩!智谱开源图生视频模型,网友直呼Amazing!
2024-09-19 16:14:03
IDC:中国AI基础设施市场爆发式增长 阿里云市占率第一
2025-10-22 19:50:44
字节跳动推出3D生成大模型
2025-10-23 16:11:27
强脑科技在成都设新公司 含AI相关业务
2025-10-23 14:07:29
独家|阿里夸克“C计划”揭晓 上线对话助手 把“豆包”塞了进去
2025-10-23 10:05:55
荣耀设立20亿激励资源 提升智能体和MagicOS生态体验力度
2025-10-23 18:14:34
阿里巴巴将开启夸克AI眼镜预售 推动人工智能应用商业化
2025-10-23 13:08:00
存储芯片“超级周期”持续演绎:三星、SK海力士料将涨价30% 客户开启囤货模式
2025-10-23 15:11:46
慧思开物SDK正式开放 北京人形加速构建具身智能生态新格局
2025-10-23 15:11:25
田渊栋被裁后新offer排到法国!原来Llama 4.5训完后被卸磨杀驴了
2025-10-24 09:29:01
快手进军“AI 编程”赛道,推出“工具 + 模型 + 平台”产品矩阵
2025-10-23 16:09:13
顶会直聘!大厂ICCV现场玩出新模式,还是鹅会玩
2025-10-23 16:08:51
新研究揭穿Claude底裤,马斯克盖棺定论
2025-10-23 15:05:55
24小时热文
更多
扫一扫体验小程序