1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

在线体验智谱开源的图生视频模型CogVideoX-5B-I2V,网友评价褒贬不一

智谱近日开放了清影背后的图生视频模型CogVideoX-5B-I2V及其标注模型cogvlm2-llama3-caption的源代码,让用户体验更加便捷。模型支持“一张图+提示词”生成视频,以及将视频内容转换为文本描述。

用户反馈意见呈现两极分化:

  • 一些用户对其惊叹不已,直呼“Amazing”。
  • 另一部分用户尝试后选择使用旧版本,并给予积极评价。

接下来,我们将通过实测来探索其实际表现:

第一次实测: 输入提示词:咖啡店员握住双手笑着对客人表示欢迎,说话时身体自然活动。 结果:生成的视频展现了生动的画面,但“手部”问题依然存在。

第二次实测: 尝试简短提示词:吗喽颠着二郎腿打电话。 结果:生成的视频主体动作不够流畅,静止状态较为明显。

第三次实测: 提示词:“明月圆圆,几个人坐在河边谈心说话,举杯高歌。” 结果:生成过程出现错误,最终未能展示结果。

整体来看,模型生成效果参差不齐,速度较慢。团队分享的成功作品展示了模型的潜力,例如:

  • 提示词:“当万花筒般的蝴蝶在花朵中翩翩起舞时,花园变得生机勃勃,它们精致的翅膀在下面的花瓣上投下阴影。”
  • 提示词:“一位穿着西装的宇航员,靴子上沾满了火星的红色尘埃,在第四颗行星的粉红色天空下,他伸出手与一个外星人握手”
  • 提示词:“湖岸边长满了柳树,细长的枝条在微风中轻轻摇曳。平静的湖面倒映着清澈的蓝天,几只优雅的天鹅在平静的水面上优雅地滑翔”

此外,模型的代码已开源,支持部署在特定平台。团队发布的论文揭示了三项关键技术创新:

  1. 高效三维变分自编码器结构,将原视频空间压缩至2%,显著降低了训练成本和难度。
  2. 专家Transformer,通过VAE编码压缩视频,使用T5进行文本输入编码,然后将二者合并处理。
  3. 数据处理,开发负面标签识别低质量视频,通过视频字幕数据生成高质量字幕,优化模型训练过程。

近期,智谱AI持续更新CogVideoX模型,包括提供SAT权重的推理和微调代码、支持自动化高质量视频生成、优化推理性能,以及引入视频增强工具等,旨在提高模型的实用性与效果。


以上是对原文的精简与整合,保持了原文的核心信息与情感色彩,同时简化了篇幅,使之更易于阅读。

原文链接
本文链接:https://kx.umi6.com/article/6500.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
在线可玩!智谱开源图生视频模型,网友直呼Amazing!
2024-09-19 16:14:03
周鸿祎解读AI短剧:直言有望颠覆Netflix 生产效率提升数十倍
2026-03-08 14:07:20
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
2026-03-06 23:41:48
最高法:打击滥用AI换脸等行为 斩断为电诈提供“技术助攻”的链条
2026-03-09 15:54:50
20岁大学生花10天VibeCoding一个开源项目,获盛大3000万投资
2026-03-08 16:13:04
黄仁勋:AI智能体将彻底改造软件 笨软件即将消失
2026-03-08 14:08:18
青岛:设立首批16个人工智能OPC专业园区
2026-03-10 08:57:52
上海人工智能实验室推出DeepLink多元算力混合推理加速方案
2026-03-09 15:53:40
2.2亿人正和AI谈恋爱 学者:AI伴侣对孤独或受伤的人有好处
2026-03-08 21:41:26
人力资源社会保障部部长:正研究措施发挥人工智能创造新岗位和赋能传统岗位作用
2026-03-07 11:27:41
龙虾上桌!上市公司抢着养 OpenClaw引爆科技圈
2026-03-09 18:01:30
MiniMax发布“龙虾”新技能:推出Voice Maker语音模型和Music Maker音乐模型
2026-03-09 16:56:53
佛州男子过度迷恋“AI娇妻”自杀身亡 家属起诉谷歌Gemini
2026-03-07 13:35:28
24小时热文
更多
扫一扫体验小程序