标题:Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024年10月21日,智源研究院发布了原生多模态世界模型Emu3,该模型基于预测下一个token的技术,无需扩散模型或组合方法,即可实现文本、图像和视频的理解与生成。Emu3在图像生成、视频生成和视觉语言理解等任务中表现优异,超过了一些知名开源模型。
Emu3通过强大的视觉tokenizer将视频和图像转换为离散token,这些token可以与文本tokenizer输出的离散token一起送入模型。模型输出的离散token可以转换为文本、图像和视频,为Any-to-Any任务提供了统一的研究范式。此外,Emu3利用直接偏好优化(DPO)技术,使模型与人类偏好保持一致。
Emu3研究结果显示,下一个token预测可以作为多模态模型的强大范式,实现大规模多模态学习并在多模态任务中达到先进性能。该模型已开源关键技术与模型,吸引了广泛关注。
Emu3的统一方法简化了多模态AI的开发和应用,为各行各业提供了新可能,也推动了多模态AI领域的变革。未来,Emu3有望在自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等领域发挥重要作用。
原文链接
本文链接:https://kx.umi6.com/article/7602.html
转载请注明文章出处
相关推荐
换一换
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
阶跃星辰推出开源 SOTA 图像编辑模型,一个月连发三款多模态模型
2025-04-27 15:20:13
天工大模型 4.0 o1 版 / 4o 版上线,App 及网页可免费使用
2025-01-06 11:23:41
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
智谱首个免费多模态模型 GLM-4V-Flash 上线,支持图像描述生成、视觉问答等
2024-12-09 22:35:42
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
2024-10-22 00:42:45
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相
2025-05-21 05:52:42
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
2025-08-28 10:15:37
独家|华为昇腾适配阶跃星辰多模态开源模型
2025-03-10 14:41:01
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立
2025-05-08 16:31:26
阶跃生态开放日:聚焦智能终端 Agent,率先布局端侧全产业
2025-02-25 17:06:04
谷歌正式发布 Gemma 3n 小钢炮模型:2GB 内存本地玩转 AI 多模态
2025-06-27 16:11:19
实测商汤实时音视频交互模型5o:“造假”齐白石《虾》一眼识破!
2025-01-23 16:19:50
565 文章
259300 浏览
24小时热文
更多
-
2025-10-25 08:14:19 -
2025-10-24 22:57:14 -
2025-10-24 21:54:02