豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

2025-01-27 14:31:44

WisdomTrail

发布在

科普

阅读：369

豆包团队提出的新视频生成模型VideoWorld，无需语言模型，仅凭“视觉”就能学习复杂任务。现有模型多依赖语言或标签数据，而语言无法全面捕捉真实世界的知识，如折纸、打领结等。VideoWorld采用潜在动态模型（LDM）压缩视频帧间的视觉变化信息，提升学习效率。在不依赖强化学习搜索或奖励函数的情况下，VideoWorld达到专业5段9×9围棋水平，并能在多种环境中执行机器人任务。VideoWorld通过LDM建模数据模式、辅助前向规划及生成因果相关编码，克服了视频学习中的冗余信息问题。团队希望未来解决高质量视频生成和多环境泛化的挑战，使视频生成模型成为通用知识学习器。

原文链接

本文链接：https://kx.umi6.com/article/12253.html

转载请注明文章出处

VideoWorld