2月10日,豆包发布视频生成实验模型“VideoWorld”,无需依赖语言模型,仅通过视觉信息即可认知世界。VideoWorld在300M参数量下表现出色,已在多项测试中达到专业5段9x9围棋水平。不同于主流多模态模型,VideoWorld主要处理纯视觉信号的学习,实现理解和推理任务。团队采用潜在动态模型(LDM)高效压缩视频帧间变化信息。不过,该模型在真实世界应用中面临高质量视频生成和多环境泛化的挑战。AI视觉学习能力的提升有望催生更多AI应用,国内AI大模型多模态能力持续提升。
原文链接
本文链接:https://kx.umi6.com/article/13027.html
转载请注明文章出处
相关推荐
.png)
换一换
OPPO Find X8新机接入豆包大模型
2024-10-30 15:19:03
豆包大模型团队启动人才计划研究实习生专项
2025-03-21 18:39:27
荣耀Magic7系列发布,内置YOYO智能体,可实现多应用协同执行
2024-10-31 18:55:25
豆包大模型有望成为继ChatGPT之后的又一重量级产品!龙头10天6板,受益上市公司梳理
2024-12-16 09:52:35
杀疯了!字节豆包视觉理解模型价格下降85%,火山引擎谭待:现在不太关注市场竞争
2024-12-18 17:35:19
豆包大模型 1.6 正式发布,每百万输入 Token 低至 0.8 元
2025-06-11 12:09:27
豆包文生图技术报告发布
2025-03-12 13:30:10
豆包,大模型的磁力三重奏
2024-08-08 09:20:22
字节跳动豆包文生图技术报告发布:数据处理、预训练、RLHF 全流程公开
2025-03-12 14:26:26
百万 tokens 降至 0.8 元后,消息称字节跳动豆包大模型毛利率达 50%
2025-01-22 19:02:33
豆包又把算力成本“打了下来” 但压力才刚刚开始
2025-02-12 19:41:14
联想与火山引擎官宣合作,为AI桌面助手接入豆包大模型
2024-12-27 22:11:36
豆包大模型披露2024技术进展,亮相7个月综合能力全面对齐GPT-4o
2024-12-30 15:18:52
510 文章
172256 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08