Emu3 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

世界模型有了开源基座Emu3.5！拿下多模态SOTA，性能超Nano Banana

2025年10月，北京智源人工智能研究院发布开源多模态世界模型Emu3.5，性能超越Nano Banana（Gemini-2.5-Flash-Image），在多项权威基准测试中取得领先。Emu3.5具备强大的物理模拟与逻辑连贯性能力，支持图、文、视频任务，可生成高精度动态场景并保持空间一致性，适用于第一视角虚拟世界探索、复杂图像编辑及分步教学等。技术上，基于Decoder-only Transformer架构，参数量34B，通过海量视频数据预训练和多阶段对齐优化，并引入离散扩散适配（DiDA）技术提升推理速度近20倍。Emu3.5已全面开源，为开发者和研究者提供基础模型支持，推动智能体构建与行业应用创新。项目主页与内测申请已上线。

原文链接

元界筑梦师

10-31 10:25:44

Emu3.5

世界模型

多模态

分享至

打开微信扫一扫

内容投诉

生成图片

智源发布多模态世界大模型悟界·Emu3.5 可实现跨场景具身操作

10月30日，智源发布多模态世界大模型Emu3.5。该模型采用自回归方式实现“Next-State Prediction (NSP)”，具备泛化的世界建模能力。在应用层面，Emu3.5可完成跨场景具身操作、复杂动作规划与交互，并支持文图生成、图片编辑及时空变换等功能。这一突破为多模态技术的应用提供了更广泛的可能性。（记者李明明）

原文链接

阿达旻

10-30 12:47:02

Emu3.5

多模态世界大模型

智源

分享至

打开微信扫一扫

内容投诉

生成图片

全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向

全球首个原生多模态世界模型Emu3发布，由北京智源人工智能研究院（智源研究院）开发，采用自回归技术路线。Emu3参数量为80亿，能够统一处理图像、文本和视频，无需扩散模型或组合式方法，直接预测下一个token。在多项测试中，Emu3的表现超越了现有主流开源模型，如Stable Diffusion S...

原文链接

未来笔触

10-22 19:16:13

Emu3

多模态大模型

智源研究院

分享至

打开微信扫一扫

内容投诉

生成图片

智源研究院发布世界模型Emu3 多模态AGI渐行渐近？

【摘要】近日，智源研究院发布原生多模态世界模型Emu3，该模型可实现视频、图像、文本三种模态的统一理解与生成。当前行业中的多模态大模型多为针对特定任务的专用模型，Emu3则首次证明了下一token预测在多模态任务中的高效表现，为构建多模态AGI提供了技术前景。智源研究院院长王仲远指出，Emu3能统一表示空间，实现跨模态的统一训练和生成，有望推动机器人、自动驾驶、多模态对话等领域的发展。此外，Emu3采用统一的Tokenizer系统，将不同模态信息映射至同一空间，简化了训练过程，降低了基础设施需求。此次发布标志着多模态大模型向AGI迈进的重要一步，相关技术或将在未来加快产业化进程。（10月22日，《科创板日报》报道）

原文链接

智能涌动

10-22 11:06:09

AGI

Emu3

多模态

分享至

打开微信扫一扫

内容投诉

生成图片

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

10月21日，智源研究院发布了原生多模态世界模型Emu3，该模型无需扩散模型或组合方法，即可实现对文本、图像、视频三种模态数据的理解和生成。Emu3在多项基准测试中表现出色，包括图像生成、视觉语言理解和视频生成任务，均优于现有模型。例如，在图像生成任务中，Emu3优于SD-1.5与SDXL；在视觉语言理解任务中，Emu3优于LlaVA-1.6；在视频生成任务中，Emu3优于OpenSora 1.2。Emu3提供了一个强大的视觉tokenizer，能够将视频和图像转换为离散token，这些token与文本tokenizer输出的离散token一同送入模型中，从而实现Any-to-Any的任务处理。目前，Emu3的关键技术和模型已开源，相关链接已公布。这一突破性的进展为大规模多模态学习提供了新的研究范式。

原文链接

未来编码者

10-22 00:42:45

Emu3

token

多模态

分享至

打开微信扫一扫

内容投诉

生成图片

智源研究院发布原生多模态世界模型Emu3

【最新发布】智源研究院今日正式推出原生多模态世界模型Emu3。该模型能够实现视频、图像、文本三种模态的统一理解和生成，采用基于下一个token预测的多模态技术范式，极大提升了大规模训练和推理能力。这一创新成果标志着人工智能技术在跨模态理解与生成方面取得重要进展。此次发布由《科创板日报》记者李明明报道，进一步巩固了我国在人工智能领域的领先地位。【21日】

原文链接

数码游侠

10-21 19:37:49

原生多模态世界模型Emu3

多模态

智源研究院

分享至

打开微信扫一扫

内容投诉

生成图片

Ilya观点得证！仅靠预测下一个token统一图像文本视频，智源发布原生多模态世界模型Emu3

标题：Ilya观点得证！仅靠预测下一个token统一图像文本视频，智源发布原生多模态世界模型Emu3 2024年10月21日，智源研究院发布了原生多模态世界模型Emu3，该模型基于预测下一个token的技术，无需扩散模型或组合方法，即可实现文本、图像和视频的理解与生成。Emu3在图像生成、视频生成和...

原文链接