综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年10月,北京智源人工智能研究院发布开源多模态世界模型Emu3.5,性能超越Nano Banana(Gemini-2.5-Flash-Image),在多项权威基准测试中取得领先。Emu3.5具备强大的物理模拟与逻辑连贯性能力,支持图、文、视频任务,可生成高精度动态场景并保持空间一致性,适用于第一视角虚拟世界探索、复杂图像编辑及分步教学等。技术上,基于Decoder-only Transformer架构,参数量34B,通过海量视频数据预训练和多阶段对齐优化,并引入离散扩散适配(DiDA)技术提升推理速度近20倍。Emu3.5已全面开源,为开发者和研究者提供基础模型支持,推动智能体构建与行业应用创新。项目主页与内测申请已上线。
原文链接
10月30日,智源发布多模态世界大模型Emu3.5。该模型采用自回归方式实现“Next-State Prediction (NSP)”,具备泛化的世界建模能力。在应用层面,Emu3.5可完成跨场景具身操作、复杂动作规划与交互,并支持文图生成、图片编辑及时空变换等功能。这一突破为多模态技术的应用提供了更广泛的可能性。(记者 李明明)
原文链接
加载更多
暂无内容