在线体验智谱开源的图生视频模型CogVideoX-5B-I2V,网友评价褒贬不一
智谱近日开放了清影背后的图生视频模型CogVideoX-5B-I2V及其标注模型cogvlm2-llama3-caption的源代码,让用户体验更加便捷。模型支持“一张图+提示词”生成视频,以及将视频内容转换为文本描述。
用户反馈意见呈现两极分化:
- 一些用户对其惊叹不已,直呼“Amazing”。
- 另一部分用户尝试后选择使用旧版本,并给予积极评价。
接下来,我们将通过实测来探索其实际表现:
第一次实测: 输入提示词:咖啡店员握住双手笑着对客人表示欢迎,说话时身体自然活动。 结果:生成的视频展现了生动的画面,但“手部”问题依然存在。
第二次实测: 尝试简短提示词:吗喽颠着二郎腿打电话。 结果:生成的视频主体动作不够流畅,静止状态较为明显。
第三次实测: 提示词:“明月圆圆,几个人坐在河边谈心说话,举杯高歌。” 结果:生成过程出现错误,最终未能展示结果。
整体来看,模型生成效果参差不齐,速度较慢。团队分享的成功作品展示了模型的潜力,例如:
- 提示词:“当万花筒般的蝴蝶在花朵中翩翩起舞时,花园变得生机勃勃,它们精致的翅膀在下面的花瓣上投下阴影。”
- 提示词:“一位穿着西装的宇航员,靴子上沾满了火星的红色尘埃,在第四颗行星的粉红色天空下,他伸出手与一个外星人握手”
- 提示词:“湖岸边长满了柳树,细长的枝条在微风中轻轻摇曳。平静的湖面倒映着清澈的蓝天,几只优雅的天鹅在平静的水面上优雅地滑翔”
此外,模型的代码已开源,支持部署在特定平台。团队发布的论文揭示了三项关键技术创新:
- 高效三维变分自编码器结构,将原视频空间压缩至2%,显著降低了训练成本和难度。
- 专家Transformer,通过VAE编码压缩视频,使用T5进行文本输入编码,然后将二者合并处理。
- 数据处理,开发负面标签识别低质量视频,通过视频字幕数据生成高质量字幕,优化模型训练过程。
近期,智谱AI持续更新CogVideoX模型,包括提供SAT权重的推理和微调代码、支持自动化高质量视频生成、优化推理性能,以及引入视频增强工具等,旨在提高模型的实用性与效果。
以上是对原文的精简与整合,保持了原文的核心信息与情感色彩,同时简化了篇幅,使之更易于阅读。
原文链接
本文链接:https://kx.umi6.com/article/6500.html
转载请注明文章出处
相关推荐
.png)
换一换
在线可玩!智谱开源图生视频模型,网友直呼Amazing!
2024-09-19 16:14:03
OpenAI重组ChatGPT个性研究团队!
2025-09-06 11:36:18
实测美团 LongCat:快到极致,但是别说追平 DeepSeek
2025-09-05 15:22:48
阿里通义千问发布迄今最大模型——Qwen3-Max-Preview
2025-09-06 00:27:49
OpenAI 研究人员宣称已破解模型“幻觉”难题:现有评估方式在鼓励 AI“瞎蒙”
2025-09-06 16:36:08
2025世界智能产业博览会签约项目金额超2000亿元
2025-09-05 18:26:52
中国电科王平:国内半导体装备已进入“战国时代”
2025-09-05 21:27:41
联想发布全球首款AI电脑支架:集成追踪、语音与手势控制
2025-09-05 15:21:36
柯洁回应与AI下棋:比一百盘被虐一百盘 AI要我水平低的数据是在污染自己
2025-09-07 09:43:21
月之暗面 Kimi K2 宣布更新:上下文长度扩展至 256K,带来更快的 API
2025-09-05 12:17:23
调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模
2025-09-06 12:36:04
华为全新小艺拟人化实时音视频对话功能适配机型公布,含 Mate XTs 三折叠等
2025-09-07 14:45:54
中盐集团与中国移动签署战略合作协议
2025-09-05 11:18:12
537 文章
195714 浏览
24小时热文
更多

-
2025-09-07 21:49:50
-
2025-09-07 20:50:36
-
2025-09-07 20:49:25