2月10日,豆包发布视频生成实验模型“VideoWorld”,无需依赖语言模型,仅通过视觉信息即可认知世界。VideoWorld在300M参数量下表现出色,已在多项测试中达到专业5段9x9围棋水平。不同于主流多模态模型,VideoWorld主要处理纯视觉信号的学习,实现理解和推理任务。团队采用潜在动态模型(LDM)高效压缩视频帧间变化信息。不过,该模型在真实世界应用中面临高质量视频生成和多环境泛化的挑战。AI视觉学习能力的提升有望催生更多AI应用,国内AI大模型多模态能力持续提升。
原文链接
本文链接:https://kx.umi6.com/article/13027.html
转载请注明文章出处
相关推荐
换一换
豆包大模型日均tokens使用量超过4万亿
2024-12-18 10:29:48
豆包大模型日均tokens使用量超过12.7万亿
2025-04-17 10:32:12
火山引擎相关人士回应“豆包比价”是否会提高字节产品权重:不会
2025-12-18 19:08:28
业界首个!豆包新模型搅动AI视觉
2025-02-10 15:16:21
联想与火山引擎官宣合作,为AI桌面助手接入豆包大模型
2024-12-27 22:11:36
豆包团队视频生成新突破:无需语言模型,仅凭“视觉”就能学习复杂任务
2025-01-27 14:31:44
豆包大模型联合润欣科技、老凤祥开发AI眼镜
2025-12-18 13:47:41
杀疯了!字节豆包视觉理解模型价格下降85%,火山引擎谭待:现在不太关注市场竞争
2024-12-18 17:35:19
小米浏览器接入豆包大模型,升级 “AI 搜索” 功能
2025-08-02 09:13:51
豆包的压力才刚刚开始
2025-02-13 15:04:27
机构密集调研豆包概念股!龙头12天7板,近两个月接待量居前热门股名单来了
2024-12-21 15:59:48
发布三个月,豆包大模型综合能力提升20.3%,应用落地再提速
2024-08-22 00:06:45
豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界
2025-02-10 15:13:00
674 文章
444444 浏览
24小时热文
更多
-
2026-01-23 22:19:57 -
2026-01-23 22:18:50 -
2026-01-23 22:17:41