1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

全球首个原生多模态世界模型Emu3发布,由北京智源人工智能研究院(智源研究院)开发,采用自回归技术路线。Emu3参数量为80亿,能够统一处理图像、文本和视频,无需扩散模型或组合式方法,直接预测下一个token。在多项测试中,Emu3的表现超越了现有主流开源模型,如Stable Diffusion SDXL、LLaVA和OpenSora等。

智源研究院院长王仲远表示,Emu3展示了自回归技术在多模态任务中的高性能,为构建多模态AGI提供了技术前景。未来,Emu3有望促进机器人大脑、自动驾驶、多模态对话和推理等应用场景的发展。

Emu3的发布标志着大模型能通过更多维度的数据来理解、学习真实世界。在图像生成、文生视频和语言能力方面,Emu3均表现出色,但语言能力仍有提升空间。王仲远认为,当前多模态领域仍处于早期阶段,未来需进一步扩大训练规模,推动Emu3的应用。

此外,算力、数据和生态是当前多模态世界模型面临的挑战。尽管如此,智源研究院将继续研发原生多模态世界模型Emu系列,解决更大规模的数据、算力及训练问题。未来三到五年,智源将聚焦多模态大模型的研发与应用,特别是在AI for Science领域。

原文链接
本文链接:https://kx.umi6.com/article/7693.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智源研究院宣布开源超长视频理解模型Video-XL-2
2025-06-03 12:58:08
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
2025-02-23 14:57:45
独家对话智源研究院院长王仲远:中国AI发展不会被阻碍
2024-06-12 23:35:00
24小时热文
更多
扫一扫体验小程序