10月21日,智源研究院发布了原生多模态世界模型Emu3,该模型无需扩散模型或组合方法,即可实现对文本、图像、视频三种模态数据的理解和生成。Emu3在多项基准测试中表现出色,包括图像生成、视觉语言理解和视频生成任务,均优于现有模型。例如,在图像生成任务中,Emu3优于SD-1.5与SDXL;在视觉语言理解任务中,Emu3优于LlaVA-1.6;在视频生成任务中,Emu3优于OpenSora 1.2。Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token,这些token与文本tokenizer输出的离散token一同送入模型中,从而实现Any-to-Any的任务处理。目前,Emu3的关键技术和模型已开源,相关链接已公布。这一突破性的进展为大规模多模态学习提供了新的研究范式。
原文链接
本文链接:https://kx.umi6.com/article/7635.html
转载请注明文章出处
相关推荐
换一换
字节 Seed 开源统一多模态理解和生成模型 BAGEL
2025-06-03 19:01:17
美团新独立APP,点不了菜只能点AI
2025-11-03 12:17:52
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
全球最大开源视频模型,现在也Created in China了,阶跃出品
2025-02-19 14:50:40
张鹏×潘乱×张一甲,对谈实录
2025-07-10 14:22:23
阶跃星辰与吉利联合开源,多模态实力领跑开源大模型
2025-02-18 10:15:09
4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬
2025-06-06 22:39:37
百度文心大模型 4.5 官宣 3 月 16 日发布,原生多模态、深度思考
2025-02-28 15:14:39
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
2025-04-28 12:48:54
字节跳动提出OmniHuman多模态框架 一张图配上音频即可生成逼真视频
2025-02-06 15:36:01
文生视频模型为何迟迟没有“aha moment”?
2025-04-14 15:40:26
Grok 4宣布全球免费使用
2025-08-11 11:04:47
Llama 4发布:我看到了DeepSeek的影子
2025-04-06 16:06:56
686 文章
467044 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34