1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

全球首个原生多模态世界模型Emu3发布,由北京智源人工智能研究院(智源研究院)开发,采用自回归技术路线。Emu3参数量为80亿,能够统一处理图像、文本和视频,无需扩散模型或组合式方法,直接预测下一个token。在多项测试中,Emu3的表现超越了现有主流开源模型,如Stable Diffusion SDXL、LLaVA和OpenSora等。

智源研究院院长王仲远表示,Emu3展示了自回归技术在多模态任务中的高性能,为构建多模态AGI提供了技术前景。未来,Emu3有望促进机器人大脑、自动驾驶、多模态对话和推理等应用场景的发展。

Emu3的发布标志着大模型能通过更多维度的数据来理解、学习真实世界。在图像生成、文生视频和语言能力方面,Emu3均表现出色,但语言能力仍有提升空间。王仲远认为,当前多模态领域仍处于早期阶段,未来需进一步扩大训练规模,推动Emu3的应用。

此外,算力、数据和生态是当前多模态世界模型面临的挑战。尽管如此,智源研究院将继续研发原生多模态世界模型Emu系列,解决更大规模的数据、算力及训练问题。未来三到五年,智源将聚焦多模态大模型的研发与应用,特别是在AI for Science领域。

原文链接
本文链接:https://kx.umi6.com/article/7693.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球
2025-09-09 12:12:13
阶跃星辰走「窄门」
2025-06-12 18:36:57
对话式AI即将爆发!将在手机助手、陪伴机器人、学习机等场景率先落地
2025-03-08 22:12:53
腾讯微信正式发布多模态大模型 POINTS 1.5
2024-12-16 09:34:39
当下,阿里国际某个指标每两个月就翻一倍
2024-07-20 14:13:21
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
中科闻歌:即将发布智川X-Agent智能体平台、优雅多模态大模型产品
2025-02-21 13:57:33
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
2024-08-07 11:18:02
西部证券:具有视觉能力的多模态大模型将对视觉 SoC和存储带来新需求
2024-12-16 10:00:06
智源研究院发布2025十大AI技术趋势
2025-01-09 11:52:36
MiniMax刘华:构建多模态开源生态,研发不再围绕稠密架构
2025-02-23 16:00:51
商汤绝影行业首发原生多模态大模型车端部署:80 亿参数、每秒 40 Tokens
2024-07-19 13:35:17
24小时热文
更多
扫一扫体验小程序