1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月21日,智源研究院发布了原生多模态世界模型Emu3,该模型无需扩散模型或组合方法,即可实现对文本、图像、视频三种模态数据的理解和生成。Emu3在多项基准测试中表现出色,包括图像生成、视觉语言理解和视频生成任务,均优于现有模型。例如,在图像生成任务中,Emu3优于SD-1.5与SDXL;在视觉语言理解任务中,Emu3优于LlaVA-1.6;在视频生成任务中,Emu3优于OpenSora 1.2。Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token,这些token与文本tokenizer输出的离散token一同送入模型中,从而实现Any-to-Any的任务处理。目前,Emu3的关键技术和模型已开源,相关链接已公布。这一突破性的进展为大规模多模态学习提供了新的研究范式。

原文链接
本文链接:https://kx.umi6.com/article/7635.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI推出全新GPT-4o mini免费上线,2年内GPT大模型成本骤降99%
2024-07-19 08:01:32
你打折、我免费 怎么AI圈突然打价格战了
2024-05-23 18:28:02
一场对话,我们细扒了下文心大模型背后的技术
2025-05-22 23:09:28
24小时热文
更多
扫一扫体验小程序