2月10日,豆包发布视频生成实验模型“VideoWorld”,无需依赖语言模型,仅通过视觉信息即可认知世界。VideoWorld在300M参数量下表现出色,已在多项测试中达到专业5段9x9围棋水平。不同于主流多模态模型,VideoWorld主要处理纯视觉信号的学习,实现理解和推理任务。团队采用潜在动态模型(LDM)高效压缩视频帧间变化信息。不过,该模型在真实世界应用中面临高质量视频生成和多环境泛化的挑战。AI视觉学习能力的提升有望催生更多AI应用,国内AI大模型多模态能力持续提升。
原文链接
本文链接:https://kx.umi6.com/article/13027.html
转载请注明文章出处
相关推荐
换一换
豆包大模型发布各领域技术进展,首次披露 300 万长文本能力
2024-12-30 22:29:06
豆包大模型 1.6-vision 发布:家族首个能调用工具的视觉深度思考模型
2025-10-01 15:45:42
小米浏览器接入豆包大模型,升级 “AI 搜索” 功能
2025-08-02 09:13:51
豆包版《Her》升级上新!随时打断,交流自然,还是开箱即用的那种
2024-08-22 17:50:21
曝苹果计划给Apple Watch加上摄像头,一切为了AI
2025-03-24 11:56:18
字节跳动豆包大模型 1.5 Pro 发布,综合得分优于 GPT-4o、Claude 3.5 Sonnet
2025-01-22 13:59:44
豆包大模型披露2024技术进展,亮相7个月综合能力全面对齐GPT-4o
2024-12-30 15:18:52
火山引擎总裁回应豆包大模型定价:确保合理毛利 让AI技术普惠广大开发者
2024-12-20 12:29:13
豆包大模型联合润欣科技、老凤祥开发AI眼镜
2025-12-18 13:47:41
豆包大模型日均tokens使用量超过12.7万亿
2025-04-17 10:32:12
联想与火山引擎官宣合作,为AI桌面助手接入豆包大模型
2024-12-27 22:11:36
豆包大模型发布以来日均Tokens使用量超过5000亿
2024-08-21 16:44:46
火山引擎正式发布豆包大模型 1.8,具备更强多模态 Agent 能力
2025-12-18 11:43:45
698 文章
495919 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18