全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向

2024-10-22 19:16:13

未来笔触

发布在

科普

阅读：570

全球首个原生多模态世界模型Emu3发布，由北京智源人工智能研究院（智源研究院）开发，采用自回归技术路线。Emu3参数量为80亿，能够统一处理图像、文本和视频，无需扩散模型或组合式方法，直接预测下一个token。在多项测试中，Emu3的表现超越了现有主流开源模型，如Stable Diffusion SDXL、LLaVA和OpenSora等。

智源研究院院长王仲远表示，Emu3展示了自回归技术在多模态任务中的高性能，为构建多模态AGI提供了技术前景。未来，Emu3有望促进机器人大脑、自动驾驶、多模态对话和推理等应用场景的发展。

Emu3的发布标志着大模型能通过更多维度的数据来理解、学习真实世界。在图像生成、文生视频和语言能力方面，Emu3均表现出色，但语言能力仍有提升空间。王仲远认为，当前多模态领域仍处于早期阶段，未来需进一步扩大训练规模，推动Emu3的应用。

此外，算力、数据和生态是当前多模态世界模型面临的挑战。尽管如此，智源研究院将继续研发原生多模态世界模型Emu系列，解决更大规模的数据、算力及训练问题。未来三到五年，智源将聚焦多模态大模型的研发与应用，特别是在AI for Science领域。

原文链接

本文链接：https://kx.umi6.com/article/7693.html

转载请注明文章出处

Emu3