10月21日,智源研究院发布了原生多模态世界模型Emu3,该模型无需扩散模型或组合方法,即可实现对文本、图像、视频三种模态数据的理解和生成。Emu3在多项基准测试中表现出色,包括图像生成、视觉语言理解和视频生成任务,均优于现有模型。例如,在图像生成任务中,Emu3优于SD-1.5与SDXL;在视觉语言理解任务中,Emu3优于LlaVA-1.6;在视频生成任务中,Emu3优于OpenSora 1.2。Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token,这些token与文本tokenizer输出的离散token一同送入模型中,从而实现Any-to-Any的任务处理。目前,Emu3的关键技术和模型已开源,相关链接已公布。这一突破性的进展为大规模多模态学习提供了新的研究范式。
原文链接
本文链接:https://kx.umi6.com/article/7635.html
转载请注明文章出处
相关推荐
换一换
摸DeepSeek过河也得自身硬! 想开后的文小言,真香!
2025-03-31 17:40:22
2024,AI行业的新进展
2024-11-28 14:27:17
Meta发布最强开源Llama 4,超越DeepSeek V3
2025-04-06 10:58:02
展望2025,AI行业有哪些创新机会?
2024-11-29 15:02:31
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
2025-07-30 15:46:31
字节跳动提出OmniHuman多模态框架 一张图配上音频即可生成逼真视频
2025-02-06 15:36:01
多模态和Agent成为大厂AI的新赛点
2025-04-30 20:07:29
别听模型厂商的,“提示”不是功能,是bug
2025-08-10 10:44:56
阶跃星辰与吉利联合开源,多模态实力领跑开源大模型
2025-02-18 10:15:09
阶跃星辰再拿多模态榜首,全方位升级发布六款模型
2025-01-22 18:02:08
值得买科技与人大高瓴人工智能学院首个多模态领域联合研究成果亮相CNCC2024
2024-10-25 13:46:03
阶跃星辰发布Step-2 mini和Step文学大师模型
2025-01-20 16:28:10
刚刚,商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接可推理
2025-04-10 22:10:27
584 文章
289292 浏览
24小时热文
更多
-
2025-10-25 08:14:19 -
2025-10-24 22:57:14 -
2025-10-24 21:54:02