10月21日,智源研究院发布了原生多模态世界模型Emu3,该模型无需扩散模型或组合方法,即可实现对文本、图像、视频三种模态数据的理解和生成。Emu3在多项基准测试中表现出色,包括图像生成、视觉语言理解和视频生成任务,均优于现有模型。例如,在图像生成任务中,Emu3优于SD-1.5与SDXL;在视觉语言理解任务中,Emu3优于LlaVA-1.6;在视频生成任务中,Emu3优于OpenSora 1.2。Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token,这些token与文本tokenizer输出的离散token一同送入模型中,从而实现Any-to-Any的任务处理。目前,Emu3的关键技术和模型已开源,相关链接已公布。这一突破性的进展为大规模多模态学习提供了新的研究范式。
原文链接
本文链接:https://kx.umi6.com/article/7635.html
转载请注明文章出处
相关推荐
.png)
换一换
消息称百度今年下半年将发布新一代 AI 大模型文心 5.0,提升多模态能力
2025-02-12 13:31:41
豆包大模型1.6正式发布
2025-06-11 11:12:11
百度文心大模型 4.5 官宣 3 月 16 日发布,原生多模态、深度思考
2025-02-28 15:14:39
黄仁勋担心中国市场觉醒
2025-05-08 14:31:13
百度发布文心大模型 4.5 Turbo / X1 Turbo:主打多模态、强推理、低成本
2025-04-25 11:06:03
GPT-5泄露!首次统一GPT和o系列,实测demo抢先曝光,下周发布?
2025-08-01 08:52:52
GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用
2025-08-08 04:01:37
阶跃星辰发布Step-2 mini和Step文学大师模型
2025-01-20 16:28:10
百度:推出首个多模态高度融合数字人
2025-06-17 16:25:35
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
2025-04-25 18:17:24
谷歌狙击OpenAI 集中火力猛攻AI智能体
2024-12-12 10:56:14
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
2025-02-26 10:28:10
536 文章
191949 浏览
24小时热文
更多

-
2025-09-06 14:35:37
-
2025-09-06 14:35:21
-
2025-09-06 12:37:21