全球首个原生多模态世界模型Emu3发布,由北京智源人工智能研究院(智源研究院)开发,采用自回归技术路线。Emu3参数量为80亿,能够统一处理图像、文本和视频,无需扩散模型或组合式方法,直接预测下一个token。在多项测试中,Emu3的表现超越了现有主流开源模型,如Stable Diffusion SDXL、LLaVA和OpenSora等。
智源研究院院长王仲远表示,Emu3展示了自回归技术在多模态任务中的高性能,为构建多模态AGI提供了技术前景。未来,Emu3有望促进机器人大脑、自动驾驶、多模态对话和推理等应用场景的发展。
Emu3的发布标志着大模型能通过更多维度的数据来理解、学习真实世界。在图像生成、文生视频和语言能力方面,Emu3均表现出色,但语言能力仍有提升空间。王仲远认为,当前多模态领域仍处于早期阶段,未来需进一步扩大训练规模,推动Emu3的应用。
此外,算力、数据和生态是当前多模态世界模型面临的挑战。尽管如此,智源研究院将继续研发原生多模态世界模型Emu系列,解决更大规模的数据、算力及训练问题。未来三到五年,智源将聚焦多模态大模型的研发与应用,特别是在AI for Science领域。
原文链接
本文链接:https://kx.umi6.com/article/7693.html
转载请注明文章出处
相关推荐
.png)
换一换
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
2025-04-04 13:13:45
国际首个,我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM
2024-07-25 18:37:14
全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%
2024-06-12 13:18:49
独家对话智源研究院院长王仲远:中国AI发展不会被阻碍
2024-06-12 23:35:00
智源研究院发布世界模型Emu3 多模态AGI渐行渐近?
2024-10-22 11:06:09
小红书开源多模态大模型
2025-08-07 14:53:39
阶跃星辰走“窄门”
2025-06-12 22:41:52
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
大模型如何避免“狭义AI陷阱”?
2024-07-15 21:50:24
规格拉满!Llama和Sora作者都来刷脸的中国AI春晚,还开源了一大堆大模型成果
2024-06-14 18:16:33
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
上海AI实验室开源通用多模态大模型书生·万象3.5
2025-09-03 20:52:29
智源研究院发布原生多模态世界模型Emu3
2024-10-21 19:37:49
485 文章
164369 浏览
24小时热文
更多

-
2025-09-06 08:33:16
-
2025-09-06 08:32:00
-
2025-09-06 06:30:37