标题:Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024年10月21日,智源研究院发布了原生多模态世界模型Emu3,该模型基于预测下一个token的技术,无需扩散模型或组合方法,即可实现文本、图像和视频的理解与生成。Emu3在图像生成、视频生成和视觉语言理解等任务中表现优异,超过了一些知名开源模型。
Emu3通过强大的视觉tokenizer将视频和图像转换为离散token,这些token可以与文本tokenizer输出的离散token一起送入模型。模型输出的离散token可以转换为文本、图像和视频,为Any-to-Any任务提供了统一的研究范式。此外,Emu3利用直接偏好优化(DPO)技术,使模型与人类偏好保持一致。
Emu3研究结果显示,下一个token预测可以作为多模态模型的强大范式,实现大规模多模态学习并在多模态任务中达到先进性能。该模型已开源关键技术与模型,吸引了广泛关注。
Emu3的统一方法简化了多模态AI的开发和应用,为各行各业提供了新可能,也推动了多模态AI领域的变革。未来,Emu3有望在自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等领域发挥重要作用。
原文链接
本文链接:https://kx.umi6.com/article/7602.html
转载请注明文章出处
相关推荐
换一换
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向
2024-10-22 19:16:13
阿里云栖大会一口气发布千问 3-VL、万相 2.5 等六大模型 + 通义百聆新品牌,覆盖文本、视觉、语音、视频、代码、图像全场景
2025-09-24 14:42:04
超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话
2024-08-30 15:15:58
华为开源7B多模态模型,视觉定位和OCR能力出色,你的昇腾端侧“新甜点”来了
2026-01-05 14:06:30
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
Kimi最新多模态模型K2-VL提前现身
2026-01-05 15:13:56
阶跃星辰开源 10B 多模态模型 Step3-VL-10B,性能媲美千亿级大模型
2026-01-20 19:24:31
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025-06-28 00:15:30
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立
2025-05-08 16:31:26
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相
2025-05-21 05:52:42
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了
2024-10-24 14:09:29
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
660 文章
412393 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34