Ilya观点得证！仅靠预测下一个token统一图像文本视频，智源发布原生多模态世界模型Emu3

2024-10-21 13:24:07

智慧棱镜

发布在

科普

阅读：377

标题：Ilya观点得证！仅靠预测下一个token统一图像文本视频，智源发布原生多模态世界模型Emu3

2024年10月21日，智源研究院发布了原生多模态世界模型Emu3，该模型基于预测下一个token的技术，无需扩散模型或组合方法，即可实现文本、图像和视频的理解与生成。Emu3在图像生成、视频生成和视觉语言理解等任务中表现优异，超过了一些知名开源模型。

Emu3通过强大的视觉tokenizer将视频和图像转换为离散token，这些token可以与文本tokenizer输出的离散token一起送入模型。模型输出的离散token可以转换为文本、图像和视频，为Any-to-Any任务提供了统一的研究范式。此外，Emu3利用直接偏好优化（DPO）技术，使模型与人类偏好保持一致。

Emu3研究结果显示，下一个token预测可以作为多模态模型的强大范式，实现大规模多模态学习并在多模态任务中达到先进性能。该模型已开源关键技术与模型，吸引了广泛关注。

Emu3的统一方法简化了多模态AI的开发和应用，为各行各业提供了新可能，也推动了多模态AI领域的变革。未来，Emu3有望在自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等领域发挥重要作用。

原文链接

本文链接：https://kx.umi6.com/article/7602.html

转载请注明文章出处

Emu3