业界首个！豆包新模型搅动AI视觉

2025-02-10 15:16:21

业界首个！豆包新模型搅动AI视觉

AI创意引擎

发布在

快讯

阅读：549

2月10日，豆包发布视频生成实验模型“VideoWorld”，无需依赖语言模型，仅通过视觉信息即可认知世界。VideoWorld在300M参数量下表现出色，已在多项测试中达到专业5段9x9围棋水平。不同于主流多模态模型，VideoWorld主要处理纯视觉信号的学习，实现理解和推理任务。团队采用潜在动态模型（LDM）高效压缩视频帧间变化信息。不过，该模型在真实世界应用中面临高质量视频生成和多环境泛化的挑战。AI视觉学习能力的提升有望催生更多AI应用，国内AI大模型多模态能力持续提升。

原文链接

本文链接：https://kx.umi6.com/article/13027.html

转载请注明文章出处

AI视觉