智源研究院发布世界模型Emu3 多模态AGI渐行渐近？

2024-10-22 11:06:09

智能涌动

发布在

快讯

阅读：253

【摘要】近日，智源研究院发布原生多模态世界模型Emu3，该模型可实现视频、图像、文本三种模态的统一理解与生成。当前行业中的多模态大模型多为针对特定任务的专用模型，Emu3则首次证明了下一token预测在多模态任务中的高效表现，为构建多模态AGI提供了技术前景。智源研究院院长王仲远指出，Emu3能统一表示空间，实现跨模态的统一训练和生成，有望推动机器人、自动驾驶、多模态对话等领域的发展。此外，Emu3采用统一的Tokenizer系统，将不同模态信息映射至同一空间，简化了训练过程，降低了基础设施需求。此次发布标志着多模态大模型向AGI迈进的重要一步，相关技术或将在未来加快产业化进程。（10月22日，《科创板日报》报道）

原文链接

本文链接：https://kx.umi6.com/article/7656.html

转载请注明文章出处

AGI