
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Midjourney发布首个视频模型V1,虽不卷分辨率和长镜头,但凭借精准调色和高辨识度风格收获好评。用户可通过“Animate”按钮将图像转为视频,默认生成4段5秒视频,最长可达21秒。视频功能已纳入现有订阅体系(10美元/月),但存在功能限制,如无音效、时间轴编辑及API接入支持,且分辨率仅480p。尽管如此,其独特的氛围感和流畅动态受到认可,从日式电车站到极光雪地场景均展现高质量生成效果。Midjourney目标是构建“世界模型”,视频模型为其重要阶段性成果,未来还将推出3D模型与实时系统。
原文链接
标题:不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少?UC伯克利大学计算机副教授Sergey Levine提出了这一疑问。他曾...
原文链接
4月17日,阿里通义万相宣布开源其自主研发的“首尾帧生视频模型”,这是业界首个百亿参数规模的开源首尾帧视频模型。该模型能够根据用户提供的首尾帧图片生成720p高清视频,并支持流畅过渡和自然动作生成。模型通过引入条件控制机制、优化训练策略及推理算法,在保持高精度的同时提高了生成效率。用户可通过官网免费体验或在GitHub、Hugging Face等平台下载模型进行二次开发。该技术可应用于特效变化、运镜控制等多种场景,例如生成四季交替或昼夜变化的延时摄影效果视频。开源地址已同步公布,包括Github、HuggingFace及魔搭社区。
原文链接
标题:文生视频模型为何迟迟没有“aha moment”?
“多模态目前仍处于GPT 2至3之间的水平,尚未迎来智能涌现的临界点。”视频生成模型公司“智象未来”创始人兼CEO梅涛坦言。他曾主导微软研究院多模态AI体系,如今致力于视频生成领域的探索。
回顾2023年初ChatGPT在国内的火爆,当时中国...
原文链接
亚马逊AI视频模型Nova Reel升级至1.1版本,最大生成时长提升至两分钟且支持多镜头视频。用户可通过提供长达4000字符的提示词生成由六秒镜头组成的视频。新增“多镜头手动”模式,允许结合图片和最多512字符提示词生成包含多达20个镜头的视频。目前,Nova Reel仅通过AWS平台提供,需申请使用。值得注意的是,视频生成模型的训练数据来源引发伦理争议,亚马逊虽未公开数据来源,但承诺为客户提供版权侵权保护。此更新于2023年4月8日发布。
原文链接
今日,《科创板日报》报道,阶跃星辰开源了一款名为Step-Video-TI2V的图生视频模型。该模型基于30B参数的Step-Video-T2V训练而成,能够生成102帧、5秒长度、540P分辨率的视频,具有运动幅度可控及镜头运动可控两大核心特性,并且自带一定特效生成能力。目前,Step-Video-TI2V已成功适配华为昇腾计算平台,并于魔乐社区(Modelers)上线。
原文链接
3月20日,阶跃星辰开源了图生视频模型Step-Video-TI2V。该模型基于30B参数的Step-Video-T2V训练,支持生成102帧、5秒、540P分辨率的视频,具有运动幅度可控和镜头运动可控两大特色,同时具备一定特效生成能力。相比现有模型,它在动态性和稳定性间实现更佳平衡。Step-Video-TI2V已完成与华为昇腾计算平台适配,并在魔乐社区上线。核心功能包括:1. 运动幅度可控,适合不同风格创作;2. 多种运镜控制,可生成电影级效果;3. 动漫效果突出,适用于动画和短视频制作;4. 支持多尺寸生成,适应不同平台需求。模型现已开源,阶跃AI网页版和App端同步上线,未来还将通过LoRA技术增强特效能力。
原文链接
3月20日,阶跃星辰开源全新图生视频模型Step-Video-TI2V。该模型基于30B参数Step-Video-T2V训练,支持生成102帧、5秒、540P分辨率视频,在VBench-I2V测试中达到SOTA水平。模型具备运动幅度和镜头运动双重可控特性,尤其擅长动漫效果生成,适用于动画创作及短视频制作。Step-Video-TI2V已适配华为昇腾平台,用户可通过阶跃AI网页端、App端及魔乐社区体验。这是阶跃星辰近一个月内开源的第三款多模态大模型,前两款分别为文生视频模型Step-Video-T2V和语音模型Step-Audio,均达SOTA水准,吸引多家生态厂商接入。
原文链接
腾讯混元于3月6日发布并开源图生视频模型,该模型能将图片转化为5秒短视频,并自动添加背景音效。用户上传图片并描述运动和镜头调度后,模型即可生成所需视频。此外,上传人物图片并输入文本或音频,可实现“对口型”效果,支持生成跳舞视频。该模型适用于多种角色和场景,参数量为130亿,支持开发者下载并基于LoRA训练衍生模型。开源内容包括权重、推理代码和训练代码。该模型具备超写实画质、流畅动作演绎等特性,已在Github和HuggingFace社区开放。
原文链接
在2025全球开发者先锋大会上,阶跃星辰CEO姜大昕宣布,公司将于3月份开源图生视频模型,继续坚持开源策略。(《科创板日报》22日讯 记者 张洋洋)
原文链接
加载更多

暂无内容