智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

2024-10-22 00:42:45

未来编码者

发布在

快讯

阅读：761

10月21日，智源研究院发布了原生多模态世界模型Emu3，该模型无需扩散模型或组合方法，即可实现对文本、图像、视频三种模态数据的理解和生成。Emu3在多项基准测试中表现出色，包括图像生成、视觉语言理解和视频生成任务，均优于现有模型。例如，在图像生成任务中，Emu3优于SD-1.5与SDXL；在视觉语言理解任务中，Emu3优于LlaVA-1.6；在视频生成任务中，Emu3优于OpenSora 1.2。Emu3提供了一个强大的视觉tokenizer，能够将视频和图像转换为离散token，这些token与文本tokenizer输出的离散token一同送入模型中，从而实现Any-to-Any的任务处理。目前，Emu3的关键技术和模型已开源，相关链接已公布。这一突破性的进展为大规模多模态学习提供了新的研究范式。

原文链接

本文链接：https://kx.umi6.com/article/7635.html

转载请注明文章出处

Emu3