豆包团队提出的新视频生成模型VideoWorld,无需语言模型,仅凭“视觉”就能学习复杂任务。现有模型多依赖语言或标签数据,而语言无法全面捕捉真实世界的知识,如折纸、打领结等。VideoWorld采用潜在动态模型(LDM)压缩视频帧间的视觉变化信息,提升学习效率。在不依赖强化学习搜索或奖励函数的情况下,VideoWorld达到专业5段9×9围棋水平,并能在多种环境中执行机器人任务。VideoWorld通过LDM建模数据模式、辅助前向规划及生成因果相关编码,克服了视频学习中的冗余信息问题。团队希望未来解决高质量视频生成和多环境泛化的挑战,使视频生成模型成为通用知识学习器。
原文链接
本文链接:https://kx.umi6.com/article/12253.html
转载请注明文章出处
相关推荐
换一换
豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界
2025-02-10 15:13:00
豆包:视频生成模型“VideoWorld”可仅靠视觉认知世界 现已开源
2025-02-10 14:10:40
Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP
2025-04-25 12:10:53
豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界
2025-02-10 15:13:00
业界首个!豆包新模型搅动AI视觉
2025-02-10 15:16:21
微信公布AI生态布局新进展:肯德基作为首批餐饮企业接入
2026-06-08 23:49:41
造谣小米员工破坏展车、AI伪造事故视频!两名网络用户公开道歉
2026-06-08 18:42:21
月薪高达13万元!科技大厂掀起AI人才争夺战:35岁从业者成抢手资源
2026-06-08 12:26:28
波恩大学 Maren Bennewitz 教授:让机器人在遮挡世界中主动获取信息 | ICRA 2026
2026-06-05 19:22:55
高德发布ABot-Earth0.5:跨越2D蒸馏模式,以3D原生驱动高一致性场景生成
2026-06-08 17:40:19
慕尼黑工大Johannes Betz 教授:时速300公里的自动驾驶超车 | ICRA 2026
2026-06-04 16:14:04
独家丨华为天才少年王裕鑫创业,首月完成数千万级首轮融资
2026-06-08 12:28:00
华为云发布Agentic AI系列新品 打造智能时代“硅基黑土地”
2026-06-05 19:12:13
721 文章
616258 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41