视频生成赛道再添“猛将”，智谱清影正式上线

2024-07-31 15:38:09

E-Poet

发布在

科普

阅读：392

智谱清影正式上线，加入AI视频生成赛道，生成6秒视频仅需30秒。作为国内超200亿估值大模型公司中首家发布视频生成成果的创业团队，智谱凭借快速的多模态能力成长，展示了在多模态算法与算力储备上的实力。此前，智谱在文本与检索领域表现出色，而这次在视频生成上，智谱率先推出基于大模型的文本到视频生成模型CogVideoX，实现了从文字到视频的高效转换。

智谱清影在功能上支持PC、APP及小程序，提供6秒视频生成服务，且分辨率高达1440p。用户只需输入一段文字，选择风格，如卡通3D、黑白、油画、电影感等，再叠加音乐，即可生成视频。同步推出的图生视频功能涵盖表情包梗图、广告制作、剧情创作、短视频创作等，其中“老照片动起来”小程序能将黑白老照片转化为动态视频，并自动上色。

生成视频类型主要在风景、动物、超现实、人文历史等领域表现较好，支持皮克斯风格、卡通风格、摄影风格、动漫风格等视频风格选择，近景效果最佳。提示词作为关键因素，直接影响生成视频的效果，为此，智谱提供了智能体辅助生成更清晰的提示词。

目前，清影在首发测试期间免费使用，但生成视频需排队等待1分钟以上，VIP通道则需购买加速包，费用为5元解锁一天（24小时）高速通道或199元解锁一年高速通道。

此外，智谱成为国内首个面向开发者开放视频生成大模型的厂商，通过CogVideoX的开放平台，开发者可通过调用API体验文生视频及图生视频模型能力。

智谱团队自研的视频生成大模型CogVideoX依托高效的三维变分自编码器结构、因果三维卷积模型、端到端的视频理解模型、以及将文本、时间、空间三个维度融合的transformer架构，解决了内容连贯性问题，提高了生成视频的质量。同时，智谱还自研了3D RoPE位置编码模块，更有利于捕捉帧间关系，建立视频中的长程依赖。

智谱在多模态大模型领域积累了深厚的实力，自2021年起先后推出了文生图大模型CogView、文生视频大模型CogVideo等，持续推动多模态大模型的发展。未来，智谱将继续探索更高效的模型架构，以提高视频生成的真实感和质量，满足用户需求。

原文链接

本文链接：https://kx.umi6.com/article/4306.html

转载请注明文章出处

AI视频生成功能