在线体验智谱开源的图生视频模型CogVideoX-5B-I2V,网友评价褒贬不一
智谱近日开放了清影背后的图生视频模型CogVideoX-5B-I2V及其标注模型cogvlm2-llama3-caption的源代码,让用户体验更加便捷。模型支持“一张图+提示词”生成视频,以及将视频内容转换为文本描述。
用户反馈意见呈现两极分化:
- 一些用户对其惊叹不已,直呼“Amazing”。
- 另一部分用户尝试后选择使用旧版本,并给予积极评价。
接下来,我们将通过实测来探索其实际表现:
第一次实测: 输入提示词:咖啡店员握住双手笑着对客人表示欢迎,说话时身体自然活动。 结果:生成的视频展现了生动的画面,但“手部”问题依然存在。
第二次实测: 尝试简短提示词:吗喽颠着二郎腿打电话。 结果:生成的视频主体动作不够流畅,静止状态较为明显。
第三次实测: 提示词:“明月圆圆,几个人坐在河边谈心说话,举杯高歌。” 结果:生成过程出现错误,最终未能展示结果。
整体来看,模型生成效果参差不齐,速度较慢。团队分享的成功作品展示了模型的潜力,例如:
- 提示词:“当万花筒般的蝴蝶在花朵中翩翩起舞时,花园变得生机勃勃,它们精致的翅膀在下面的花瓣上投下阴影。”
- 提示词:“一位穿着西装的宇航员,靴子上沾满了火星的红色尘埃,在第四颗行星的粉红色天空下,他伸出手与一个外星人握手”
- 提示词:“湖岸边长满了柳树,细长的枝条在微风中轻轻摇曳。平静的湖面倒映着清澈的蓝天,几只优雅的天鹅在平静的水面上优雅地滑翔”
此外,模型的代码已开源,支持部署在特定平台。团队发布的论文揭示了三项关键技术创新:
- 高效三维变分自编码器结构,将原视频空间压缩至2%,显著降低了训练成本和难度。
- 专家Transformer,通过VAE编码压缩视频,使用T5进行文本输入编码,然后将二者合并处理。
- 数据处理,开发负面标签识别低质量视频,通过视频字幕数据生成高质量字幕,优化模型训练过程。
近期,智谱AI持续更新CogVideoX模型,包括提供SAT权重的推理和微调代码、支持自动化高质量视频生成、优化推理性能,以及引入视频增强工具等,旨在提高模型的实用性与效果。
以上是对原文的精简与整合,保持了原文的核心信息与情感色彩,同时简化了篇幅,使之更易于阅读。
原文链接
本文链接:https://kx.umi6.com/article/6500.html
转载请注明文章出处
相关推荐
换一换
在线可玩!智谱开源图生视频模型,网友直呼Amazing!
2024-09-19 16:14:03
英国拟全面推广 AI 人脸识别系统,但黑人、亚裔“极易”被误报为涉案人员
2025-12-06 16:38:53
李开复:未来办公司和搭积木一样快,比谁更会用 Agent
2025-12-06 18:42:35
用AI图仅退款,这批羊毛党把商家薅麻了
2025-12-08 12:24:10
AI将冲击几乎所有工作!麦肯锡预测:全球高达8亿个岗位会被取代
2025-12-08 11:24:37
美的“美罗 U”首曝,行业首创六臂轮足式人形机器人
2025-12-07 15:33:32
马斯克谈每年发射100万吨AI卫星:大规模运行AI最低成本方式
2025-12-08 10:20:50
机器人集体到香港户外自主极限挑战,四足比人形强
2025-12-08 15:34:35
谷歌 DeepMind CEO 哈萨比斯:规模定律是走向通用人工智能的关键
2025-12-08 09:16:34
重庆“十五五”规划建议:建设“人工智能+”市域开源新生态 迭代完善人工智能政策体系
2025-12-08 08:18:03
黄仁勋:AI末日永远不会发生
2025-12-08 10:21:57
豆包手机助手:我们无法直接查询银行卡余额,需用户授权及手动确认
2025-12-06 17:41:12
加快发展新质生产力 上海自动驾驶测试道路总里程超5200公里
2025-12-07 13:29:51
647 文章
395273 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57