
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
11月8日,智谱技术团队发布并开源了最新版本的视频生成模型CogVideoX v1.5。这款模型显著提升了图像生成视频的质量和复杂语义的理解能力,支持生成10秒、4K分辨率、60帧的超高清视频,并且能够适应任意比例,满足不同播放场景需求。此外,新模型还支持一次生成4个视频,并能自动生成与画面匹配的音效,告别传统“默片”。该模型已同步上线至“清影”平台,并结合了新推出的音效模型CogSound。“清影”平台的新功能将极大地丰富AI视频创作体验。开源地址为: 和 。
原文链接
【智谱AI发布】8月28日,智谱AI宣布开源全新视频生成模型CogVideoX-5B。相较于先前的CogVideoX-2B,此新模型在视频生成质量与视觉效果上均有显著提升。官方透露,通过大幅度优化推理性能,CogVideoX-5B的运行门槛已显著降低,即便在性能较旧的RTX 3060显卡上也能流畅运行。这款基于大规模DiT(diffusion transformer)模型的工具,运用3D causal VAE、专家Transformer等技术,实现高效视频重建及跨模态数据处理。CogVideoX-5B与前代模型的具体参数对比详情可见附件。此外,项目代码、模型下载链接及论文均可在线获取。此开源行动旨在促进视频生成领域技术创新与应用发展。
原文链接
【智谱AI开源视频生成模型CogVideoX】
智谱AI于8月6日宣布,将与“清影”同源的视频生成模型——CogVideoX开源,旨在推动视频生成技术的发展。该模型包含多个不同尺寸的版本,目前开源的是CogVideoX-2B,其在FP-16精度下的推理仅需18GB显存,微调则需40GB显存,这意味着单张4090显卡即可进行推理,单张A6000显卡则可完成微调。CogVideoX-2B的提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,分辨率为720*480。官方表示,性能更强、参数量更大的模型开发正在进行中,敬请期待。此次开源活动不仅提供了强大的视频生成工具,也为开发者和研究者提供了宝贵的学习资源。
原文链接
加载更多

暂无内容