10月21日,智源研究院发布了原生多模态世界模型Emu3,该模型无需扩散模型或组合方法,即可实现对文本、图像、视频三种模态数据的理解和生成。Emu3在多项基准测试中表现出色,包括图像生成、视觉语言理解和视频生成任务,均优于现有模型。例如,在图像生成任务中,Emu3优于SD-1.5与SDXL;在视觉语言理解任务中,Emu3优于LlaVA-1.6;在视频生成任务中,Emu3优于OpenSora 1.2。Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token,这些token与文本tokenizer输出的离散token一同送入模型中,从而实现Any-to-Any的任务处理。目前,Emu3的关键技术和模型已开源,相关链接已公布。这一突破性的进展为大规模多模态学习提供了新的研究范式。
原文链接
本文链接:https://kx.umi6.com/article/7635.html
转载请注明文章出处
相关推荐
换一换
Gemini 2.0来了:一个要做所有AI agent底座的超级模型
2024-12-12 14:55:24
Gemini 2.0成P图神器 各种P图只需一句话的事儿
2024-12-16 23:50:15
全球顶尖AI科学家许主洪加盟阿里巴巴,担任阿里集团副总裁负责AI To C业务
2025-02-06 11:28:49
从Figma到中国垂类应用全球崛起
2025-08-01 14:01:49
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
2025-04-06 10:54:42
阿里通义千问 2.5-Omni-3B AI 全模态登场:7B 版 90% 性能,显存占用减少 53%
2025-05-01 11:20:52
Nano Banana爆火背后,深聊谷歌多模态五大主线布局
2025-09-10 15:36:58
OpenAI 重申今夏推出最强模型 GPT-5,具备完整多模态 AI 能力
2025-07-07 21:35:27
GPT-5泄露!首次统一GPT和o系列,实测demo抢先曝光,下周发布?
2025-08-01 08:52:52
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
2025-04-25 18:17:24
全球首个深度推理+多模态大模型“紫东太初”4.0发布
2025-09-19 13:13:31
Grok 4宣布全球免费使用
2025-08-11 11:04:47
谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?
2025-11-24 15:02:36
729 文章
536315 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22