【摘要】近日,智源研究院发布原生多模态世界模型Emu3,该模型可实现视频、图像、文本三种模态的统一理解与生成。当前行业中的多模态大模型多为针对特定任务的专用模型,Emu3则首次证明了下一token预测在多模态任务中的高效表现,为构建多模态AGI提供了技术前景。智源研究院院长王仲远指出,Emu3能统一表示空间,实现跨模态的统一训练和生成,有望推动机器人、自动驾驶、多模态对话等领域的发展。此外,Emu3采用统一的Tokenizer系统,将不同模态信息映射至同一空间,简化了训练过程,降低了基础设施需求。此次发布标志着多模态大模型向AGI迈进的重要一步,相关技术或将在未来加快产业化进程。(10月22日,《科创板日报》报道)
原文链接
本文链接:https://kx.umi6.com/article/7656.html
转载请注明文章出处
相关推荐
换一换
OpenAI奥特曼:能被ChatGPT消灭的工作不是真正的工作
2025-10-14 11:16:47
OpenAI首席科学家访谈被紧急制止!有些名字现在不让说了……
2025-08-06 17:35:32
微软 CEO 纳德拉谈 AGI:若单一主导 AI 模型普及,市场将终结
2025-11-14 22:16:42
Nano Banana爆火背后,深聊谷歌多模态五大主线布局
2025-09-10 15:36:58
DeepSeek母公司去年进账50亿,够烧2380个R1
2026-01-13 16:43:30
LeCun离职前的吐槽太猛了
2025-12-21 20:01:38
OpenAI掌舵人三年演讲梳理:一文读懂Altman
2025-10-22 18:50:58
吴恩达:图灵测试不够用了,我会设计一个AGI专用版
2026-01-10 13:12:17
GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用
2025-08-08 04:01:37
OpenAl为何“情迷”变现
2025-10-19 12:48:56
150万AI agent社交狂欢背后,是一场「产品大爆炸」
2026-02-03 02:08:01
GPT-5 的难产内幕
2025-08-02 22:26:38
GPT-5信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
2025-08-07 18:55:45
702 文章
500298 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22