1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
业界首个!豆包新模型搅动AI视觉
2月10日,豆包发布视频生成实验模型“VideoWorld”,无需依赖语言模型,仅通过视觉信息即可认知世界。VideoWorld在300M参数量下表现出色,已在多项测试中达到专业5段9x9围棋水平。不同于主流多模态模型,VideoWorld主要处理纯视觉信号的学习,实现理解和推理任务。团队采用潜在动态模型(LDM)高效压缩视频帧间变化信息。不过,该模型在真实世界应用中面临高质量视频生成和多环境泛化的挑战。AI视觉学习能力的提升有望催生更多AI应用,国内AI大模型多模态能力持续提升。
AI创意引擎
02-10 15:16:21
AI视觉
VideoWorld
豆包大模型
分享至
打开微信扫一扫
内容投诉
生成图片
豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界
2月10日,豆包大模型团队联合北京交通大学、中国科学技术大学开发的视频生成模型“VideoWorld”开源。该模型首次实现无需依赖语言模型即可认知世界,专注于纯视觉信号学习。VideoWorld采用潜在动态模型高效压缩视频帧间变化信息,提升了知识学习效率和效果。无需强化学习搜索或奖励函数机制,已达到专业围棋水平并在多种环境中执行机器人任务。更多信息参见相关链接。
未来笔触
02-10 15:13:00
VideoWorld
潜在动态模型
语言模型
分享至
打开微信扫一扫
内容投诉
生成图片
豆包:视频生成模型“VideoWorld”可仅靠视觉认知世界 现已开源
视频生成模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。该模型无需依赖语言模型,仅通过视觉认知世界。目前,该项目代码与模型已开源。
智能视野
02-10 14:10:40
VideoWorld
开源
视觉认知
分享至
打开微信扫一扫
内容投诉
生成图片
豆包团队视频生成新突破:无需语言模型,仅凭“视觉”就能学习复杂任务
豆包团队提出的新视频生成模型VideoWorld,无需语言模型,仅凭“视觉”就能学习复杂任务。现有模型多依赖语言或标签数据,而语言无法全面捕捉真实世界的知识,如折纸、打领结等。VideoWorld采用潜在动态模型(LDM)压缩视频帧间的视觉变化信息,提升学习效率。在不依赖强化学习搜索或奖励函数的情况下,VideoWorld达到专业5段9×9围棋水平,并能在多种环境中执行机器人任务。VideoWorld通过LDM建模数据模式、辅助前向规划及生成因果相关编码,克服了视频学习中的冗余信息问题。团队希望未来解决高质量视频生成和多环境泛化的挑战,使视频生成模型成为通用知识学习器。
WisdomTrail
01-27 14:31:44
VideoWorld
潜在动态模型
视觉学习
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序