图森未来于12月17日发布首个图生视频开源大模型“Ruyi”,该模型支持RTX 4090显卡运行,可生成最长5秒的视频内容。Ruyi由Casual VAE模块和Diffusion Transformer组成,总参数量约为7.1B。它支持多分辨率和多时长生成,首帧和尾帧控制,运动幅度和镜头控制等功能。尽管目前存在手部畸形、多人面部细节崩坏和不可控转场等问题,图森未来表示正在改进并在后续更新中修复。Ruyi旨在降低动漫和游戏内容的开发周期和成本,目前已开源,用户可通过Hugging Face下载。图森未来计划在下次发布中推出更多版本,以满足不同需求的创作者。
原文链接
本文链接:https://kx.umi6.com/article/10321.html
转载请注明文章出处
相关推荐
换一换
腾讯混元3D-Omni、混元3D-Part发布并开源
2025-09-26 18:33:53
AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美 Deepseek R1 等万倍大模型
2025-10-11 10:06:15
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
2025-11-11 18:20:16
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
开源炸场!优必选具身智能大模型Thinker再次狂揽9项全球第一!
2026-02-02 11:31:14
智谱GLM-4.7-Flash正式发布并开源
2026-01-20 08:45:53
腾讯混元开源翻译模型 1.5:手机 1GB 内存即可运行,效果超越商用 API
2025-12-30 16:27:33
马斯克背叛理想
2025-08-24 22:18:31
DeepSeek昨天开源的新模型,有点邪门
2025-10-22 10:42:03
美国《连线》杂志:再见,GPT5;你好,千问!
2025-12-29 15:27:00
小米全面开源具身大模型MiMo-Embodied
2025-11-21 21:43:50
阿里开源视觉理解模型Qwen3-VL
2025-09-24 14:43:41
腾讯混元开源视频音效生成模型
2025-08-28 16:29:54
649 文章
459488 浏览
24小时热文
更多
-
2026-03-10 19:54:38 -
2026-03-10 19:53:30 -
2026-03-10 19:52:24