1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

全球首个原生多模态世界模型Emu3发布,由北京智源人工智能研究院(智源研究院)开发,采用自回归技术路线。Emu3参数量为80亿,能够统一处理图像、文本和视频,无需扩散模型或组合式方法,直接预测下一个token。在多项测试中,Emu3的表现超越了现有主流开源模型,如Stable Diffusion SDXL、LLaVA和OpenSora等。

智源研究院院长王仲远表示,Emu3展示了自回归技术在多模态任务中的高性能,为构建多模态AGI提供了技术前景。未来,Emu3有望促进机器人大脑、自动驾驶、多模态对话和推理等应用场景的发展。

Emu3的发布标志着大模型能通过更多维度的数据来理解、学习真实世界。在图像生成、文生视频和语言能力方面,Emu3均表现出色,但语言能力仍有提升空间。王仲远认为,当前多模态领域仍处于早期阶段,未来需进一步扩大训练规模,推动Emu3的应用。

此外,算力、数据和生态是当前多模态世界模型面临的挑战。尽管如此,智源研究院将继续研发原生多模态世界模型Emu系列,解决更大规模的数据、算力及训练问题。未来三到五年,智源将聚焦多模态大模型的研发与应用,特别是在AI for Science领域。

原文链接
本文链接:https://kx.umi6.com/article/7693.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
我国发布全球首个深海生境智能多模态大模型
2025-11-06 21:14:23
中科闻歌:即将发布智川X-Agent智能体平台、优雅多模态大模型产品
2025-02-21 13:57:33
阶跃星辰 CEO 姜大昕:智能终端可能成为未来的 AI 入口
2025-11-16 15:39:12
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
2024-10-30 17:14:43
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
2025-04-04 13:13:45
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
商汤绝影行业首发原生多模态大模型车端部署:80 亿参数、每秒 40 Tokens
2024-07-19 13:35:17
智源研究院发布2025十大AI技术趋势
2025-01-09 11:52:36
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
小红书开源多模态大模型
2025-08-07 14:53:39
拓元智慧完成近亿元人民币Pre-A轮融资
2024-12-31 17:46:35
24小时热文
更多
扫一扫体验小程序