标题:Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024年10月21日,智源研究院发布了原生多模态世界模型Emu3,该模型基于预测下一个token的技术,无需扩散模型或组合方法,即可实现文本、图像和视频的理解与生成。Emu3在图像生成、视频生成和视觉语言理解等任务中表现优异,超过了一些知名开源模型。
Emu3通过强大的视觉tokenizer将视频和图像转换为离散token,这些token可以与文本tokenizer输出的离散token一起送入模型。模型输出的离散token可以转换为文本、图像和视频,为Any-to-Any任务提供了统一的研究范式。此外,Emu3利用直接偏好优化(DPO)技术,使模型与人类偏好保持一致。
Emu3研究结果显示,下一个token预测可以作为多模态模型的强大范式,实现大规模多模态学习并在多模态任务中达到先进性能。该模型已开源关键技术与模型,吸引了广泛关注。
Emu3的统一方法简化了多模态AI的开发和应用,为各行各业提供了新可能,也推动了多模态AI领域的变革。未来,Emu3有望在自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等领域发挥重要作用。
原文链接
本文链接:https://kx.umi6.com/article/7602.html
转载请注明文章出处
相关推荐
.png)
换一换
超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话
2024-08-30 15:15:58
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了
2024-10-24 14:09:29
多模态都是假的:最强模型数不清手指、认不出雷碧
2025-07-22 15:38:55
阿里云魔搭社区:首发阶跃星辰最新开源两款多模态模型 已上架超4万个开源模型
2025-02-21 13:58:38
AI科学家能不能理解普通人对AI的需求,怎么理解?
2024-10-09 10:59:30
阶跃生态开放日:聚焦智能终端 Agent,率先布局端侧全产业
2025-02-25 17:06:04
阿里AI TO C业务启动近千人招聘,加速多模态模型和前沿AI应用布局
2025-08-13 16:37:08
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
2025-06-28 13:21:34
vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼
2025-07-10 17:25:30
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
2025-06-07 13:49:19
DeepSeek的Janus-Pro表现如何?
2025-01-28 15:49:21
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
2025-01-28 01:38:40
全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁
2025-02-08 14:22:14
498 文章
164877 浏览
24小时热文
更多

-
2025-09-06 14:35:37
-
2025-09-06 14:35:21
-
2025-09-06 12:37:21