综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月1日,快手可灵AI宣布全球首个统一多模态视频模型——可灵视频O1模型全量上线。该模型采用全新生成式底座与MVL交互架构,支持单一输入框内融合多种任务,并结合Chain-of-thought技术,具备强大的常识推理与事件推演能力。官方称,其深层语义理解力可将照片、视频、文字视为指令,同时推出全新创作界面,用户通过简单对话即可精准生成细节。此外,该模型支持多视角构建主体,确保画面连贯稳定,并能自由组合多个主体,为创作者提供更高效的工具。
原文链接
12月1日,AI初创公司Runway发布全新视频模型Gen 4.5,独立测试显示其性能超越谷歌Veo 3和OpenAI Sora 2 Pro,登顶Video Arena榜单。Gen 4.5可根据文字提示生成高清视频,精准理解运动、人物动作、镜头调度及因果关系,物理规律理解显著提升。Runway CEO表示,百人团队也能击败科技巨头,强调专注与勤奋的重要性。公司成立于2018年,估值已达35.5亿美元,客户涵盖媒体、影视、品牌方等领域。Gen 4.5开发代号为‘David’,寓意挑战巨头,避免生成式AI被少数公司垄断。新模型本周末前向所有用户开放,并将通过平台、API及合作伙伴渠道提供,后续还有多项更新计划。
原文链接
8月25日,Meta首席人工智能官Alexandr Wang在Threads上宣布,Meta将与Midjourney合作开发图像和视频生成技术。此次合作将结合Meta的研究团队与Midjourney的专业技术,推动AI模型和产品的创新应用。这一消息展示了AI领域在多媒体内容生成方面的新动向,为未来的技术发展带来新期待。
原文链接
Midjourney发布首个视频模型V1,虽不卷分辨率和长镜头,但凭借精准调色和高辨识度风格收获好评。用户可通过“Animate”按钮将图像转为视频,默认生成4段5秒视频,最长可达21秒。视频功能已纳入现有订阅体系(10美元/月),但存在功能限制,如无音效、时间轴编辑及API接入支持,且分辨率仅480p。尽管如此,其独特的氛围感和流畅动态受到认可,从日式电车站到极光雪地场景均展现高质量生成效果。Midjourney目标是构建“世界模型”,视频模型为其重要阶段性成果,未来还将推出3D模型与实时系统。
原文链接
标题:不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
为什么语言模型能从预测下一个词中学到很多,而视频模型却从预测下一帧中学到很少?UC伯克利大学计算机副教授Sergey Levine提出了这一疑问。他曾...
原文链接
4月17日,阿里通义万相宣布开源其自主研发的“首尾帧生视频模型”,这是业界首个百亿参数规模的开源首尾帧视频模型。该模型能够根据用户提供的首尾帧图片生成720p高清视频,并支持流畅过渡和自然动作生成。模型通过引入条件控制机制、优化训练策略及推理算法,在保持高精度的同时提高了生成效率。用户可通过官网免费体验或在GitHub、Hugging Face等平台下载模型进行二次开发。该技术可应用于特效变化、运镜控制等多种场景,例如生成四季交替或昼夜变化的延时摄影效果视频。开源地址已同步公布,包括Github、HuggingFace及魔搭社区。
原文链接
标题:文生视频模型为何迟迟没有“aha moment”?
“多模态目前仍处于GPT 2至3之间的水平,尚未迎来智能涌现的临界点。”视频生成模型公司“智象未来”创始人兼CEO梅涛坦言。他曾主导微软研究院多模态AI体系,如今致力于视频生成领域的探索。
回顾2023年初ChatGPT在国内的火爆,当时中国...
原文链接
亚马逊AI视频模型Nova Reel升级至1.1版本,最大生成时长提升至两分钟且支持多镜头视频。用户可通过提供长达4000字符的提示词生成由六秒镜头组成的视频。新增“多镜头手动”模式,允许结合图片和最多512字符提示词生成包含多达20个镜头的视频。目前,Nova Reel仅通过AWS平台提供,需申请使用。值得注意的是,视频生成模型的训练数据来源引发伦理争议,亚马逊虽未公开数据来源,但承诺为客户提供版权侵权保护。此更新于2023年4月8日发布。
原文链接
今日,《科创板日报》报道,阶跃星辰开源了一款名为Step-Video-TI2V的图生视频模型。该模型基于30B参数的Step-Video-T2V训练而成,能够生成102帧、5秒长度、540P分辨率的视频,具有运动幅度可控及镜头运动可控两大核心特性,并且自带一定特效生成能力。目前,Step-Video-TI2V已成功适配华为昇腾计算平台,并于魔乐社区(Modelers)上线。
原文链接
3月20日,阶跃星辰开源了图生视频模型Step-Video-TI2V。该模型基于30B参数的Step-Video-T2V训练,支持生成102帧、5秒、540P分辨率的视频,具有运动幅度可控和镜头运动可控两大特色,同时具备一定特效生成能力。相比现有模型,它在动态性和稳定性间实现更佳平衡。Step-Video-TI2V已完成与华为昇腾计算平台适配,并在魔乐社区上线。核心功能包括:1. 运动幅度可控,适合不同风格创作;2. 多种运镜控制,可生成电影级效果;3. 动漫效果突出,适用于动画和短视频制作;4. 支持多尺寸生成,适应不同平台需求。模型现已开源,阶跃AI网页版和App端同步上线,未来还将通过LoRA技术增强特效能力。
原文链接
加载更多
暂无内容